PyQuery允许你像JQuery一样对快速对xml(lxml)文档进行元素查询、元素操作的python库。如果你熟悉JQuery的api,那么掌握PyQuery是一件十分容易的事情,因为PyQuery的api和JQuery的api基本上一致。PyQuery是一款基于lxml的库,而lxml能够快速处理xml和html文档。
起初仅仅是因为我有个想法:想在python里面使用jQuery类似api来操作xml文档,所以PyQuery就诞生了。你要明白一点的是,PyQuery库并不是用JavaScript来写的,正如上面所提到,这是一个python语言库,它基于lxml快速处理库。
PyQuery可以用来做很多xml相关的事情,下面是我能想到的一些用途:
使用PyQuery对纯HTTP模板(html)进行修改。移除废弃或者不需要的web元素。提取程序的主题元素。
PyQuery被放置在了github上,该项目被我设置了一些提交策略和代码审查策略,也就是被允许的人才能够提交和审查代码,如果你想提交你的修改,那么请给我邮件。
另外,请把bug提交到github上的issue面板上。
二、快速入门
1.使用PyQuery之前应该使用pip或者别的工具进行安装:
pipinstallpyquery
一般会自动帮你把依赖库安装上,如lxml库。
2.使用PyQuery快速加载xml文档,加载源可以是以下几个情形:
字符串xml文档文件路径url链接
代码示例(python终端):
frompyqueryimportPyQueryaspqfromlxmlimportete#引入依赖库importurllib#引入依赖库d=pq("html/html")d=pq(ete.fromstring("html/html"))#字符串d=pq(url=