5 分钟掌握智联招聘网站爬取并保存到 MongoDB 数据库

前言

本次主题分两篇文章来介绍:

  • 一、数据采集
  • 二、数据分析

第一篇先来介绍数据采集,即用python爬取网站数据。

1 运行环境和python库

先说下运行环境:

  • python3.5
  • windows 7, 64位系统

python库

本次智联招聘的网站爬取,主要涉及以下一些python库:

  • requests
  • BeautifulSoup
  • multiprocessing
  • pymongo
  • itertools

2 爬取的主要步骤

  • 根据关键字、城市、以及页面编号生成需要爬取的网页链接
  • 用requests获取相应的网页内容
  • 用BeautifulSoup解析,获取需要的关键信息
  • 将爬取的信息存入MongoDB数据库中,插入新记录或更新已有记录
  • 用multiprocessing启动多进程进行爬取,提高运行效率

3 文件组成

  • 信息配置文件“zhilian_kw_config.py”
  • 爬虫主运行文件“zhilian_kw_spider.py”

在配置文件中设置需要爬取的信息,然后运行主程序进行内容抓取。

配置文件“zhilian_kw_config.py”的内容如下:

爬虫主运行文件“zhilian_kw_spider.py”的内容如下:

1 9 收藏 评论

相关文章

可能感兴趣的话题



直接登录
跳到底部
返回顶部