Semalt:HTML精简指南–热门提示

Web内容大部分为结构化或HTML格式。每个页面都根据其内容类型以独特的方式进行组织。如果有人要提取Web信息,则每个人都希望以结构化和组织良好的方式获取数据。这将有助于节省共享之前审阅,分析和组织文档所需的时间。但是,要获得结构化格式并不容易,因为大多数网站都不提供阻止人们提取大量数据的选项。但是,某些站点提供了API,这些API可在快速简便的过程中为人们提供信息提取选项。

在这种情况下,您别无选择,只能使用称为“抓取”的软件编程的帮助。它是一种使用计算机程序的方法,可以帮助用户以有用的格式收集信息并保留数据的结构。

Lxml和请求

这是一个范围广泛的抓取库,可帮助快速分析和评估XML和HTML并节省时间。在分析过程中处理混乱的标签也很有帮助。在此过程中,您将使用Lxml请求而不是内置的urllib2,因为它更快,更健壮并且易于使用。使用pip install Lxml和pip install请求可以很容易地安装它。

对于HTML抓取,请按照以下步骤操作

从导入开始-在这里,您从Lxml导入HTML,然后导入请求。使用请求,然后跟踪包含您要提取的数据的网页,通过HTML模块对其进行分析,然后将已解析的数据保存在树中。

您将需要使用页面内容而不是文本,因为HTML希望接收以字节为单位的输入。现在,用于存储分析数据的树将HTML文档包含在树结构中。您可以通过不同的方法XPath和CSSelect遍历树结构。

XPath可帮助您检索信息或以HTML或XML之类的结构化格式获取信息。您可以通过多种方式获取XPath元素。其中包括适用于Firefox的Firebug或Chrome Inspector。使用Chrome时,检查信息很容易,因为您只需“右键”单击需要检查的元素,选择“检查元素”,突出显示提供的代码,然后右键单击并选择“复制XPath”。此过程将帮助您了解页面中包含哪些元素,然后从那里轻松创建正确的XPath查询并正确应用Lxml XPath。

完成这些步骤可确保您已使用Lxml和Requests抓取了要从特定Web提取的所有数据。您将信息存储在两个列表的内存中,现在可以进行排序了。您可以使用Python之类的编程语言对其进行分析,也可以保存并共享。另外,您可能希望在共享信息之前重写或编辑信息的某些部分。