Scrapy爬虫 - 获取知乎用户数据

安装Scrapy爬虫框架

关于如何安装Python以及Scrapy框架,这里不做介绍,请自行网上搜索。

初始化

安装好Scrapy后,执行 scrapy startproject myspider
接下来你会看到 myspider 文件夹,目录结构如下:

  • scrapy.cfg
  • myspider
    • items.py
    • pipelines.py
    • settings.py
    • __init__.py
    • spiders
      • __init__.py

编写爬虫文件

在spiders目录下新建 users.py

添加爬虫配置文件

在myspider目录下新建myconfig.py,并添加以下内容,将你的配置信息填入相应位置

修改items.py

将用户数据存入mysql数据库

修改pipelines.py

修改settings.py

找到 ITEM_PIPELINES,改为:

在末尾添加,设置爬虫的深度

爬取知乎用户数据

确保MySQL已经打开,在项目根目录下打开终端,
执行 scrapy crawl users -a url=https://www.zhihu.com/people/
其中user为爬虫的第一个用户,之后会根据该用户关注的人和被关注的人进行爬取数据
接下来会下载验证码图片,若未自动打开,请到根目录下打开 captcha.gif,在终端输入验证码
数据爬取Loading…

源码

源码可以在这里找到 github

2 13 收藏 1 评论

相关文章

可能感兴趣的话题



直接登录
最新评论
跳到底部
返回顶部