❶ 谁说Python不能爬取APP上面的数据
抓包吗?????????????????
❷ 如何用 Python 爬取社交网络
从数据库中拿出用户id列表,批量爬取一批用户id的微博数据,然后保存相应的内容到数据库中。可以动态爬取,每天开个定时启动任务,自动会爬取数据有无更新,有更新则更新数据库。如需要爬取单个用户,注释掉那部分代码即可。我没有用Scrapy框架,手写的,解析并不复杂,用的BS4,注意要手动登录,获取cookie。微博反爬策略还是比较强的,用API的方式限制真的太多了,完全做不到想要什么就爬什么。PC端的数据比较难分析,它把数据放到script标签块中,用浏览器去渲染出来的,直接抓是拿不到的,要分析script标签块。最好爬的一种就是移动端网页,http://weibo.cn,数据格式简单,限制也少。
❸ 如何用30行代码爬取Google Play 100万个App的数据
基础工作:内置元素选择器序列化存储数据处理cookie、HTTP些东西间件爬取 Sitemap 或者 RSS等等我需求爬取 Google Play 市场所 App 页面链接及载数量首先确保配置 Python 2.7, MongoDB 数据库, 及 Python pip 包管理系统安装应 Python 包并且项目模板:pip install scrapy scrapy-mongodb scrapy startproject appcd appscrapy genspider googleapp/spider/google.py 换面内容:`# -*- coding: utf-8 -*-import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.contrib.linkextractors import LinkExtractorfrom app.items import GoogleItemclass GoogleSpider(CrawlSpider):name = "google"allowed_domains = ["play.google.com"]start_urls = ['','']rules = [Rule(LinkExtractor(allow=("\.google\.com/store/apps/details", )), callback='parse_app',follow=True),] # CrawlSpider 根据 rules 规则爬取页面并调用函数进行处理def parse_app(self, response):# 获取页面 URL 及载数量item = GoogleItem()item['url'] = response.urlitem['num'] = response.xpath("//div[@itemprop='numDownloads']").xpath("text()").extract()yield itemapp/items 添加面代码:class GoogleItem(scrapy.Item):url = scrapy.Field()num = scrapy.Field()app/setting.py 面添加面代码# 配置 scrapy-mongodb 数据库连接用于自爬取数据存入 MongoDBITEM_PIPELINES = ['scrapy_mongodb.MongoDBPipeline',]MONGODB_URI = 'mongodb://127.0.0.1:27017'MONGODB_DATABASE = 'scrapy'MONGODB_COLLECTION = 'play'没其工作连配置文件共四十行启 MongoDB项目目录运行scrapy crawl google -s JOBDIR=app/jobs静静等跑完吧-s JOBDIR=app/jobs 参数意思工作状态已经爬取页面数据存 app/jobs 目录即使间断运行面命令该目录恢复工作用重新始我 Linode 低配 VPS 跑概 40 MongoDB 数据 156 万条记录2015 1 月新闻 Google Play 143 万款 App, 相信已经爬取绝数 App 页面`> use scrapyswitched to db scrapy> db.play.count()1564754> db.play.find().limit(1)"_id" : ObjectId("55479d9da28a7c1cca449c23"), "url" : "", "num" : [ " 100,000,000 – 500,000,000 " ]() >
❹ 如何进行手机APP的数据爬取
Python爬虫手机的步骤:
1. 下载fiddler抓包工具
2. 设置fiddler
这里有两点需要说明一下。
设置允许抓取HTTPS信息包
操作很简单,打开下载好的fiddler,找到 Tools -> Options,然后再HTTPS的工具栏下勾选Decrpt HTTPS traffic,在新弹出的选项栏下勾选Ignore server certificate errors。
设置允许外部设备发送HTTP/HTTPS到fiddler
相同的,在Connections选项栏下勾选Allow remote computers to connect,并记住上面的端口号8888,后面会使用到。
好了,需要的fiddler设置就配置完成了。
3. 设置手机端
设置手机端之前,我们需要记住一点:电脑和手机需要在同一个网络下进行操作。
可以使用wifi或者手机热点等来完成。
假如你已经让电脑和手机处于同一个网络下了,这时候我们需要知道此网络的ip地址,可以在命令行输入ipconfig简单的获得,如图。
好了,下面我们开始手机端的设置。
手机APP的抓取操作对于Android和Apple系统都可用,博主使用的苹果系统,在此以苹果系统为例。
进入到手机wifi的设置界面,选择当前连接网络的更多信息,在苹果中是一个叹号。然后在最下面你会看到HTTP代理的选项,点击进入。
进入后,填写上面记住的ip地址和端口号,确定保存。
4. 下载fiddler安全证书
在手机上打开浏览器输入一个上面ip地址和端口号组成的url:http://192.168.43.38:8888,然后点击FiddlerRoot certificate下载fiddler证书。
以上就简单完成了所有的操作,最后我们测试一下是否好用。
5. 手机端测试
就以知乎APP为例,在手机上打开 知乎APP。下面是电脑上fiddler的抓包结果。
结果没有问题,抓到信息包。然后就可以使用我们分析网页的方法来进行后续的操作了。
❺ 哪位大侠用python做过网络爬虫,可以爬取apk的,有代码的发一份给我研究下,谢谢
保存文件的话
import urllib
urllib.urlretrieve(url[,filename[,reporthook[,data]]])
比如 urllib..urlretrieve("http://s.xnimg.cn/imgpro/v6/logo.png", "logo.png")
先说明一下网页重定向。比如在一个download.aspx里
<%response.rederict("xxx.apk")%>
这句话是在服务器端运行的,我现在一下子想不到办法
❻ 手机APP 上面的内容 python 有办法抓取到吗
可以,但是不提倡这种行为1,在手机上设置代理,代理到你的电脑上2,再在电脑上用tcpmp或者其他图形化的抓包工具获得数据包,分析这些数据包找到你要的数据3,根据前两步的结果,写代码模拟app的操作获得你需要的数据
❼ 使用Python如何抓取APP中的数据
抓取app数据,这个你看能不能转换个思路。是不是直接请求接口,拿到返回值(接口的话可以抓包去拿到)
❽ 如何用Python爬取数据
方法/步骤
在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx。
7
这个爬下来的是源代码,如果还需要筛选的话需要自己去添加各种正则表达式。
❾ python如何爬取手机网页
用selenium, 参数里设置屏幕大小