当前位置：XML > XML历史

第5篇网页内容选择器米粒教育

Response对象的xpath()和css()方法，可以从下载的网页内容中提取指定的节点集。在一些情况下，还需要对提取的节点集做进一步的处理。例如：百度新闻爬虫提取了a标签的节点集，在处理a标签的过程中，还需要分别提取a标签的超链接和文本内容。ahref=9e/3zT\英国将法国荷兰列入隔离清单/a上面的a标签是百度新闻的一个新闻条目，现在需要提取a标签的href属性值和a标签的文本内容。可以使用下面的代码：fromscrapy.selectorimportSelectora=ahref=\9e/3zT\英国将法国荷兰列入隔离清单/ahref=Selector(text=a).xpath(//

href).extract()print(href)[9e/3zT]前面代码导入的Selector就是Scrapy的Selector对象，它可以从网页内容中提取数据。构造Selector实例对象Selector对象是Selector类的实例化对象，使用前需要先构造Selector对象。Selector类的构造方法如下表所示：注释（1）构造方法声明：Selector(text=body)该方法返回一个Selector对象，text是关键字参数，传入的实参必须是符号合HTML或XML语法的文本内容。案例代码：fromscrapy.selectorimportSelectorhtml=divid=images\imgsrc=image1_thumb.jpg/\imgsrc=image2_thumb.jpg/\/div#构造Selector实例对象selector=Selector(text=html)#从html网页内容中选取图片路径item_node=selector.xpath(//

src).extract()print(item_node)[image1_thumb.jpg,image2_thumb.jpg]注释（2）构造方法声明：Selector(response=response)从response实例对象中构造一个Selector对象。defparse(self,response):#构造Selector实例对象selector=Selector(response=response)构造Selector实例对象还有另外一种方法，response对象的selector属性就是一个Selector实例对象，在爬虫的回调函数中可以直接使用。response.selector.xpath(//div)使用选择器选择器（Selector）提供了执行Xpath选取、CSS选取和正则表达式选取的方法。购买专栏解锁剩余78%

转载请注明：http://www.vviuov.com/xgyy/1063715.html

上一篇文章：实战笔记Go语言构建微服务一站式解决方案

下一篇文章： spring通俗易懂的了解BeanD

热点文章

当前时间：

第5篇网页内容选择器米粒教育

最新文章

推荐文章

热点文章