python如何爬取app|如何用Python爬取数据-小MRY

❶ 谁说Python不能爬取APP上面的数据

抓包吗？？？？？？？？？？？？？？？？？

❷ 如何用 Python 爬取社交网络

从数据库中拿出用户id列表，批量爬取一批用户id的微博数据，然后保存相应的内容到数据库中。可以动态爬取，每天开个定时启动任务，自动会爬取数据有无更新，有更新则更新数据库。如需要爬取单个用户，注释掉那部分代码即可。我没有用Scrapy框架，手写的，解析并不复杂，用的BS4，注意要手动登录，获取cookie。微博反爬策略还是比较强的，用API的方式限制真的太多了，完全做不到想要什么就爬什么。PC端的数据比较难分析，它把数据放到script标签块中，用浏览器去渲染出来的，直接抓是拿不到的，要分析script标签块。最好爬的一种就是移动端网页，http://weibo.cn，数据格式简单，限制也少。

❸ 如何用30行代码爬取Google Play 100万个App的数据

基础工作:内置元素选择器序列化存储数据处理cookie、HTTP些东西间件爬取 Sitemap 或者 RSS等等我需求爬取 Google Play 市场所 App 页面链接及载数量首先确保配置 Python 2.7, MongoDB 数据库, 及 Python pip 包管理系统安装应 Python 包并且项目模板：pip install scrapy scrapy-mongodb scrapy startproject appcd appscrapy genspider googleapp/spider/google.py 换面内容：`# -*- coding: utf-8 -*-import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.contrib.linkextractors import LinkExtractorfrom app.items import GoogleItemclass GoogleSpider(CrawlSpider):name = "google"allowed_domains = ["play.google.com"]start_urls = ['','']rules = [Rule(LinkExtractor(allow=("\.google\.com/store/apps/details", )), callback='parse_app',follow=True),] # CrawlSpider 根据 rules 规则爬取页面并调用函数进行处理def parse_app(self, response):# 获取页面 URL 及载数量item = GoogleItem()item['url'] = response.urlitem['num'] = response.xpath("//div[@itemprop='numDownloads']").xpath("text()").extract()yield itemapp/items 添加面代码：class GoogleItem(scrapy.Item):url = scrapy.Field()num = scrapy.Field()app/setting.py 面添加面代码# 配置 scrapy-mongodb 数据库连接用于自爬取数据存入 MongoDBITEM_PIPELINES = ['scrapy_mongodb.MongoDBPipeline',]MONGODB_URI = 'mongodb://127.0.0.1:27017'MONGODB_DATABASE = 'scrapy'MONGODB_COLLECTION = 'play'没其工作连配置文件共四十行启 MongoDB项目目录运行scrapy crawl google -s JOBDIR=app/jobs静静等跑完吧-s JOBDIR=app/jobs 参数意思工作状态已经爬取页面数据存 app/jobs 目录即使间断运行面命令该目录恢复工作用重新始我 Linode 低配 VPS 跑概 40 MongoDB 数据 156 万条记录2015 1 月新闻 Google Play 143 万款 App, 相信已经爬取绝数 App 页面`> use scrapyswitched to db scrapy> db.play.count()1564754> db.play.find().limit(1)"_id" : ObjectId("55479d9da28a7c1cca449c23"), "url" : "", "num" : [ " 100,000,000 – 500,000,000 " ]() >

❹ 如何进行手机APP的数据爬取

Python爬虫手机的步骤：

1. 下载fiddler抓包工具

2. 设置fiddler

这里有两点需要说明一下。

设置允许抓取HTTPS信息包

操作很简单，打开下载好的fiddler，找到 Tools -> Options，然后再HTTPS的工具栏下勾选Decrpt HTTPS traffic，在新弹出的选项栏下勾选Ignore server certificate errors。

设置允许外部设备发送HTTP/HTTPS到fiddler

相同的，在Connections选项栏下勾选Allow remote computers to connect，并记住上面的端口号8888，后面会使用到。

好了，需要的fiddler设置就配置完成了。

3. 设置手机端

设置手机端之前，我们需要记住一点：电脑和手机需要在同一个网络下进行操作。

可以使用wifi或者手机热点等来完成。

假如你已经让电脑和手机处于同一个网络下了，这时候我们需要知道此网络的ip地址，可以在命令行输入ipconfig简单的获得，如图。

好了，下面我们开始手机端的设置。

手机APP的抓取操作对于Android和Apple系统都可用，博主使用的苹果系统，在此以苹果系统为例。

进入到手机wifi的设置界面，选择当前连接网络的更多信息，在苹果中是一个叹号。然后在最下面你会看到HTTP代理的选项，点击进入。

进入后，填写上面记住的ip地址和端口号，确定保存。

4. 下载fiddler安全证书

在手机上打开浏览器输入一个上面ip地址和端口号组成的url：http://192.168.43.38:8888，然后点击FiddlerRoot certificate下载fiddler证书。

以上就简单完成了所有的操作，最后我们测试一下是否好用。

5. 手机端测试

就以知乎APP为例，在手机上打开知乎APP。下面是电脑上fiddler的抓包结果。

结果没有问题，抓到信息包。然后就可以使用我们分析网页的方法来进行后续的操作了。

❺ 哪位大侠用python做过网络爬虫，可以爬取apk的，有代码的发一份给我研究下，谢谢

保存文件的话

import urllib

urllib.urlretrieve(url[,filename[,reporthook[,data]]])

比如 urllib..urlretrieve("http://s.xnimg.cn/imgpro/v6/logo.png", "logo.png")

先说明一下网页重定向。比如在一个download.aspx里

<%response.rederict("xxx.apk")%>

这句话是在服务器端运行的，我现在一下子想不到办法

❻ 手机APP 上面的内容 python 有办法抓取到吗

可以，但是不提倡这种行为1，在手机上设置代理，代理到你的电脑上2，再在电脑上用tcpmp或者其他图形化的抓包工具获得数据包，分析这些数据包找到你要的数据3，根据前两步的结果，写代码模拟app的操作获得你需要的数据

❼ 使用Python如何抓取APP中的数据

抓取app数据，这个你看能不能转换个思路。是不是直接请求接口，拿到返回值（接口的话可以抓包去拿到）

❽ 如何用Python爬取数据

方法/步骤

在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。

这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。

❾ python如何爬取手机网页

用selenium, 参数里设置屏幕大小

python如何爬取app|如何用Python爬取数据

相关推荐

随便看看

热门标签

最新文章