xpath技术教程(怪客科学家系列之Xpath教程)

怪客系列之Xpath教程, 首先介绍一下Xpath是什么,Xpath是一门在XML文档中查找信息(节点)的语言,Xpath用于在XML文档中通过元和和属性进行导航。Xpath现在多被用于爬虫系统中,最近在构建分布式爬虫系统,使用了Xpath,跟大家一起分享下Xpath的一些简单教程。

xpath技术教程(怪客科学家系列之Xpath教程)(1)

学习Xpath应具备的知识储备
  • HTML/XHTML

  • XML/XML Namespaces

Xpath教程

节点是Xpath里的一个术语,在Xpath中,总共有七种类型的节点,跟HTML类似,其实HTML就是一种特殊的XML,七种类型的节点分别为:元素、属性、文本、命名空间、处理命令、注释以及文档(根)节点。XML文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

我们将使用下面的例子中使用这个XML文档。

xpath技术教程(怪客科学家系列之Xpath教程)(2)

我们根据使用方法列出了一些表达式如下所示:

xpath技术教程(怪客科学家系列之Xpath教程)(3)

谓语是用来查找某个特定的节点或者包含某个指定的值得节点,在爬虫中经常有使用到,在Xpath中谓语被嵌在方括号中。下面是整理出来的一些谓语路径表达式。

xpath技术教程(怪客科学家系列之Xpath教程)(4)

当然Xpath也有类似于正则表达式的通配符,在Xpath中,通配符主要用来选取未知的XML元素。

xpath技术教程(怪客科学家系列之Xpath教程)(5)

选取若干节点,我们可以通过使用“|”运算符来选取若干个节点,如下所示:

xpath技术教程(怪客科学家系列之Xpath教程)(6)

当然在Xpath中还有运算符的存在,运算符能够构建更为复杂和多样的Xpath表达式,Xpath的运算符如下所示:

xpath技术教程(怪客科学家系列之Xpath教程)(7)

至此Xpath系列的简单教程就到此结束了,下一期会推出Xpath实战课程,使用Xpath Scrapy框架进行数据采集。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页