当前位置:XML > XML历史

第5篇网页内容选择器米粒教育

Response对象的xpath()和css()方法,可以从下载的网页内容中提取指定的节点集。在一些情况下,还需要对提取的节点集做进一步的处理。例如:百度新闻爬虫提取了a标签的节点集,在处理a标签的过程中,还需要分别提取a标签的超链接和文本内容。ahref=9e/3zT\英国将法国荷兰列入隔离清单/a上面的a标签是百度新闻的一个新闻条目,现在需要提取a标签的href属性值和a标签的文本内容。可以使用下面的代码:fromscrapy.selectorimportSelectora=ahref=\9e/3zT\英国将法国荷兰列入隔离清单/ahref=Selector(text=a).xpath(//

href).extract()print(href)[9e/3zT]前面代码导入的Selector就是Scrapy的Selector对象,它可以从网页内容中提取数据。构造Selector实例对象Selector对象是Selector类的实例化对象,使用前需要先构造Selector对象。Selector类的构造方法如下表所示:注释(1)构造方法声明:Selector(text=body)该方法返回一个Selector对象,text是关键字参数,传入的实参必须是符号合HTML或XML语法的文本内容。案例代码:fromscrapy.selectorimportSelectorhtml=divid=images\imgsrc=image1_thumb.jpg/\imgsrc=image2_thumb.jpg/\/div#构造Selector实例对象selector=Selector(text=html)#从html网页内容中选取图片路径item_node=selector.xpath(//

src).extract()print(item_node)[image1_thumb.jpg,image2_thumb.jpg]注释(2)构造方法声明:Selector(response=response)从response实例对象中构造一个Selector对象。defparse(self,response):#构造Selector实例对象selector=Selector(response=response)构造Selector实例对象还有另外一种方法,response对象的selector属性就是一个Selector实例对象,在爬虫的回调函数中可以直接使用。response.selector.xpath(//div)使用选择器选择器(Selector)提供了执行Xpath选取、CSS选取和正则表达式选取的方法。购买专栏解锁剩余78%


转载请注明:http://www.vviuov.com/xgyy/1063715.html