Python 爬虫实战(1):分析豆瓣中最新电影的影评

简介

刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。
1531315665-598193ac5c9bb_articlex

目标总览

主要做了三件事:

  • 抓取网页数据
  • 清理数据
  • 用词云进行展示
    使用的python版本是3.5.

一、抓取网页数据

第一步要对网页进行访问,python中使用的是urllib库。代码如下:

其中https://movie.douban.com/nowp…是豆瓣最新上映的电影页面,可以在浏览器中输入该网址进行查看。

html_data是字符串类型的变量,里面存放了网页的html代码。
输入print(html_data)可以查看,如下图所示:

1531315665-598193ac5c9bb_articlex

第二步,需要对得到的html代码进行解析,得到里面提取我们需要的数据。
在python中使用BeautifulSoup库进行html代码的解析。
(注:如果没有安装此库,则使用pip install BeautifulSoup进行安装即可!)
BeautifulSoup使用的格式如下:

第一个参数为需要提取数据的html,第二个参数是指定解析器,然后使用find_all()读取html标签中的内容。

但是html中有这么多的标签,该读取哪些标签呢?其实,最简单的办法是我们可以打开我们爬取网页的html代码,然后查看我们需要的数据在哪个html标签里面,再进行读取就可以了。如下图所示:

1531315665-598193ac5c9bb_articlex

从上图中可以看出在div id=”nowplaying标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息。所以相应的代码编写如下:

其中nowplaying_movie_list 是一个列表,可以用print(nowplaying_movie_list[0])查看里面的内容,如下图所示:

1531315665-598193ac5c9bb_articlex

在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下:

其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用print(nowplaying_list)进行查看,如下图所示:

1531315665-598193ac5c9bb_articlex

可以看到和豆瓣网址上面是匹配的。这样就得到了最新电影的信息了。接下来就要进行对最新电影短评进行分析了。例如《战狼2》的短评网址为:https://movie.douban.com/subject/26363254/comments?start=0&limit=20

其中26363254就是电影的id,start=0表示评论的第0条评论。

接下来接对该网址进行解析了。打开上图中的短评页面的html代码,我们发现关于评论的数据是在div标签的comment属性下面,如下图所示:

1531315665-598193ac5c9bb_articlex

因此对此标签进行解析,代码如下:

此时在comment_div_lits 列表中存放的就是div标签和comment属性下面的html代码了。在上图中还可以发现在p标签下面存放了网友对电影的评论,如下图所示:

1531315665-598193ac5c9bb_articlex

因此对comment_div_lits 代码中的html代码继续进行解析,代码如下:

使用print(eachCommentList)查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评。如下图所示:

1531315665-598193ac5c9bb_articlex

好的,至此我们已经爬取了豆瓣最近播放电影的评论数据,接下来就要对数据进行清洗和词云显示了。

二、数据清洗

为了方便进行数据进行清洗,我们将列表中的数据放在一个字符串数组中,代码如下:

使用print(comments)进行查看,如下图所示:

1531315665-598193ac5c9bb_articlex

可以看到所有的评论已经变成一个字符串了,但是我们发现评论中还有不少的标点符号等。这些符号对我们进行词频统计时根本没有用,因此要将它们清除。所用的方法是正则表达式。python中正则表达式是通过re模块来实现的。代码如下:

继续使用print(cleaned_comments)语句进行查看,如下图所示:

1531315665-598193ac5c9bb_articlex
我们可以看到此时评论数据中已经没有那些标点符号了,数据变得“干净”了很多。

因此要进行词频统计,所以先要进行中文分词操作。在这里我使用的是结巴分词。如果没有安装结巴分词,可以在控制台使用pip install jieba进行安装。(注:可以使用pip list查看是否安装了这些库)。代码如下所示:

因为结巴分词要用到pandas,所以我们这里加载了pandas包。可以使用words_df.head()查看分词之后的结果,如下图所示:

1531315665-598193ac5c9bb_articlex

从上图可以看到我们的数据中有“看”、“太”、“的”等虚词(停用词),而这些词在任何场景中都是高频时,并且没有实际的含义,所以我们要他们进行清除。

我把停用词放在一个stopwords.txt文件中,将我们的数据与停用词进行比对即可(注:只要在百度中输入stopwords.txt,就可以下载到该文件)。去停用词代码如下代码如下:

继续使用words_df.head()语句来查看结果,如下图所示,停用词已经被出去了。

1531315665-598193ac5c9bb_articlex

接下来就要进行词频统计了,代码如下:

words_stat.head()进行查看,结果如下:

1531315665-598193ac5c9bb_articlex

由于我们前面只是爬取了第一页的评论,所以数据有点少,在最后给出的完整代码中,我爬取了10页的评论,所数据还是有参考价值。

三、用词云进行显示

代码如下:

其中simhei.ttf使用来指定字体的,可以在百度上输入simhei.ttf进行下载后,放入程序的根目录即可。显示的图像如下:

1531315665-598193ac5c9bb_articlex

到此为止,整个项目的介绍就结束了。由于自己也还是个初学者,接触python不久,代码写的并不好。而且第一次写技术博客,表达的有些冗余,请大家多多包涵,有不对的地方,请大家批评指正。以后我也会将自己做的小项目以这种形式写在博客上和大家一起交流!最后贴上完整的代码。

完整代码

结果显示如下:

1531315665-598193ac5c9bb_articlex

上图基本反映了《战狼2》这部电影的情况。PS:我本人并不喜欢这部电影,内容太空洞、太假,为了爱国而爱国,没意思。哎,这两年真是国产电影的低谷啊,没有一部拿得出手的国产电影,看看人家印度拍的《摔跤吧,爸爸》那才是拍的有深度,同样是表现爱国,国产电影还是需要向别的国家好好学学。

4 24 收藏 42 评论

相关文章

可能感兴趣的话题



直接登录
最新评论
  • 冠希爱巴萨   08/18

    %matpotlib inline 在pycharm中报语法错误怎么处理?

  • 写博客就写博客,bb那么多。开始看这文章还可以,你说内容太空洞、太假也无所谓,但你说后面那句话(为了爱国而爱国)惹怒了我!《摔跤吧,爸爸》是根据真实事件来的,《战狼2》有几个部分(撤侨部分、见中国人停战部分)也是真实事件来的,什么叫做为了爱国而爱国,爱国有错?而且《摔跤吧,爸爸》并不是表现爱国,而是抨击其国女性地位的不平等。所以你这只是跪久了,站不起来的表现。还是好好写代码吧

  • 凝夜 学生 08/20

    10页数据太少我想是因为没有登录的用户只能爬取那些才用的吧,全部爬取需要解决登录,以及频繁访问后的验证码问题。词云那代码略显复杂,可以简化些

  • 李青山 Python大数据/WEB 08/22

    不错  晚上回去操作一下

  • 夹麦虾羹   08/22

    generate_from_frequencies
    frequencies = sorted(frequencies.items(), key=item1, reverse=True)
    AttributeError: 'list' object has no attribute 'items'

     

    爆了个错误,List object has no attribute ‘item,第九十四显示有些问题,不知道怎么改,请指教

  • UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 0: invalid continuation byte,这个怎么解决的

  • sequel 学生 08/24

    新手妹子有些地方不懂:请问楼主的第三方包是在哪里下载的,我有一些找不到,我用pycharm,不知楼主用的是什么IDE

    • ·   08/25

      file->Defult Settings->Project Interpreter->选择你的python版本号->右侧会有一个“+”点击那个在新的窗口可以下载你所需要的包。不知道这个能不能解决你的问题......

    • 小溪 程序员 09/07

      设置好环境变量,用命令行的pip

  • 正好再弄爬虫,晚上仔细瞧瞧

  • 先锋   08/24

    写的不错很好,点赞一下, 学习, 希望以后多发一些这样的帖子,虽然最后 词云展示 有点问题我的环境有点问题  需要安装 vc++

    • 我也是这种情况,wordcloud不显示....百度,Google都找不到解决办法

      Building prefix dict from the default dictionary ...
      Loading model from cache C:\Users\kangwor\AppData\Local\Temp\jieba.cache
      Loading model cost 1.537 seconds.
      Prefix dict has been built succesfully.
      >>>

  • yixuan   08/25

    Traceback (most recent call last):
    File "1.py", line 70, in <module>
    import matplotlib.pyplot as plt
    File "C:\python36\lib\site-packages\matplotlib\pyplot.py", line 115, in <modul
    e>
    _backend_mod, new_figure_manager, draw_if_interactive, _show = pylab_setup()

    File "C:\python36\lib\site-packages\matplotlib\backends\__init__.py", line 32,
    in pylab_setup
    globals(),locals(),[backend_name],0)
    File "C:\python36\lib\site-packages\matplotlib\backends\backend_tkagg.py", lin
    e 6, in <module>
    from six.moves import tkinter as Tk
    File "C:\python36\lib\site-packages\six.py", line 92, in __get__
    result = self._resolve()
    File "C:\python36\lib\site-packages\six.py", line 115, in _resolve
    return _import_module(self.mod)
    File "C:\python36\lib\site-packages\six.py", line 82, in _import_module
    __import__(name)
    ModuleNotFoundError: No module named 'tkinter'

    报错是啥原因?怎么破?

  • 程序运行完成没有图片怎么办?

  • Building prefix dict from the default dictionary ...
    Loading model from cache C:\Users\kangwor\AppData\Local\Temp\jieba.cache
    Loading model cost 1.537 seconds.
    Prefix dict has been built succesfully.
    >>>

    运行完是这样子的,没有图片

  • wsy   08/28

    不画图怎么回事呢?任何错误都没有报

  • wsy   08/28

    python2.7如何让词云中的Unicode转化为中文呢?

  • 使用pandas时老是出错,咋办?

  • 作为一个菜鸟。。。。我想问一下为什么在pycharm中用words_df.head()打印不出来东西呢?

  • smile   09/13

    error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

    编译有问题?按照提示下载,因为安装了vs2015不能安装?

    求大神解惑,感谢

  • 我的python版本是2.7.8,print comments那里显示的是unicode,怎么才能转换成中文?

  • 传奇   09/21

    找不到stopwords.TXT,为什么啊

    • 传奇   09/22

      文件下载了的,放在python根目录,pandas文件下也放了,不知道对不对,但是报错

      Building prefix dict from the default dictionary ...
      Loading model from cache C:\Users\XUDONG~1\AppData\Local\Temp\jieba.cache
      Loading model cost 0.980 seconds.
      Prefix dict has been built succesfully.
      Traceback (most recent call last):
      File "E:\学习资源&工具\python\new5.py", line 98, in <module>
      main()
      File "E:\学习资源&工具\python\new5.py", line 77, in main
      stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",nam
      es=['stopword'], encoding='utf-8')#quoting=3全不引用
      File "C:\Users\xds\AppData\Local\Programs\Python\Python35\lib\site-pac
      kages\pandas\io\parsers.py", line 655, in parser_f
      return _read(filepath_or_buffer, kwds)
      File "C:\Users\xds\AppData\Local\Programs\Python\Python35\lib\site-pac
      kages\pandas\io\parsers.py", line 405, in _read
      parser = TextFileReader(filepath_or_buffer, **kwds)
      File "C:\Users\xds\AppData\Local\Programs\Python\Python35\lib\site-pac
      kages\pandas\io\parsers.py", line 764, in __init__
      self._make_engine(self.engine)
      File "C:\Users\xds\AppData\Local\Programs\Python\Python35\lib\site-pac
      kages\pandas\io\parsers.py", line 985, in _make_engine
      self._engine = CParserWrapper(self.f, **self.options)
      File "C:\Users\xds\AppData\Local\Programs\Python\Python35\lib\site-pac
      kages\pandas\io\parsers.py", line 1605, in __init__
      self._reader = parsers.TextReader(src, **kwds)
      File "pandas\_libs\parsers.pyx", line 394, in pandas._libs.parsers.TextReader.
      __cinit__ (pandas\_libs\parsers.c:4209)
      File "pandas\_libs\parsers.pyx", line 710, in pandas._libs.parsers.TextReader.
      _setup_parser_source (pandas\_libs\parsers.c:8873)
      FileNotFoundError: File b'stopwords.txt' does not exist
      请按任意键继续. . .

       

  • wordcloud安装不成功,求大神指导一下怎么装.....

  • 想问一下for item in comment_div_lits:   #在子孙标签的列表中查找item(这个字符串?)我单独查找了下item标签,其为none,所以他不是标签,这里item是什么呢,是什么类型,干什么用的呢?而且后面还对其进行了eachCommentList.append(item.find_all('p')[0].string)查找标签p,item怎么用呢?

  • 我在抓取comment的时候发现会爆出这个错误AttributeError: 'NavigableString' object has no attribute 'find_all'

    对应的代码是这块

     

跳到底部
返回顶部