当前位置：XML > XML介绍

3Xpath数据解析之豆瓣电影抓取项目

北京中科白癜风医学研究院 https://disease.39.net/yldt/bjzkbdfyy/
#Python爬虫#封面网页数据解析常用的有三种方式：xpath语法、css选择器、正则表达式。三者中学习难易程度xpath和css相当，正则表达式较难。提取效率正则表达式最高，xpath其次，css效率最低。今天我们主要学习xpath语法，并结合之前所学的requests库完成一个实战项目--《豆瓣电影TOP》的电影数据抓取。一、Xpath语法1、标签的提取（1）基本概述XPath，全称XMLPathLanguage，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。（2）xpath常用规则xpath常用语法xpath节点选取举例：（3）带谓语的xpath语法带谓语的xpath语法另外，还有一个可能常用的xpath函数contains，其用法为：提示1：对于标签的提取，还有很多方式。这里仅仅列举了常用的几种，这些足以应付常见的项目。更多提取方式请参考w3school2、属性值和文本内容提取3、Python中xpath语法的使用（1）lxml解析库Python的第三方库，利用C语言编写。用于构建xpath语法解析树，使用方法很简单：（2）使用xpath语法提示2：在文本提取中常用的字符串函数二、豆瓣电影Top项目1、任务获取每部电影的电影名,导演和演员,细节,评分,引述。2、抓取步骤分三个步骤：利用requests库模拟浏览器发送请求、数据提取、数据保存到本地。3、代码展示抓取单页数据：抓取多页数据：结果展示：程序运行完以后，会在当前目录下生成一个名叫电影数据.csv的文件，用Excel就可以打开看到加上标题共有条数据啦。电影数据结果部分展示图

转载请注明：http://www.vviuov.com/jbzs/1063522.html

上一篇文章：浏览器基本原理与实践36点总结,让我

下一篇文章：没有了

热点文章

当前时间：

3Xpath数据解析之豆瓣电影抓取项目

最新文章

推荐文章

热点文章