北京中科白癜风医学研究院 https://disease.39.net/yldt/bjzkbdfyy/#Python爬虫#封面网页数据解析常用的有三种方式:xpath语法、css选择器、正则表达式。三者中学习难易程度xpath和css相当,正则表达式较难。提取效率正则表达式最高,xpath其次,css效率最低。今天我们主要学习xpath语法,并结合之前所学的requests库完成一个实战项目--《豆瓣电影TOP》的电影数据抓取。一、Xpath语法1、标签的提取(1)基本概述XPath,全称XMLPathLanguage,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。(2)xpath常用规则xpath常用语法xpath节点选取举例:(3)带谓语的xpath语法带谓语的xpath语法另外,还有一个可能常用的xpath函数contains,其用法为:提示1:对于标签的提取,还有很多方式。这里仅仅列举了常用的几种,这些足以应付常见的项目。更多提取方式请参考w3school2、属性值和文本内容提取3、Python中xpath语法的使用(1)lxml解析库Python的第三方库,利用C语言编写。用于构建xpath语法解析树,使用方法很简单:(2)使用xpath语法提示2:在文本提取中常用的字符串函数二、豆瓣电影Top项目1、任务获取每部电影的电影名,导演和演员,细节,评分,引述。2、抓取步骤分三个步骤:利用requests库模拟浏览器发送请求、数据提取、数据保存到本地。3、代码展示抓取单页数据:抓取多页数据:结果展示:程序运行完以后,会在当前目录下生成一个名叫电影数据.csv的文件,用Excel就可以打开看到加上标题共有条数据啦。电影数据结果部分展示图
转载请注明:http://www.vviuov.com/jbzs/1063522.html