Java 是一种面向对象的编程语言。在大约 2 年的时间里,它变得越来越流行和易于使用。然而,困扰许多用户的一个常见问题是“如何开始使用 Java 进行网页抓取?” 首先,您需要设置环境、检查要抓取的目标页面、发送 HTTP 请求、抓取 HTML 等等。按照所有这些步骤,您可以轻松地进行网络抓取过程。
在我们继续构建我们自己的 Java 网络爬虫之前,我们首先需要确保我们拥有以下所有内容:
– Java 8 – 虽然 Java 11 是最新版本,整体支持最好,但软件开发人员仍然更喜欢 Java 8,因为它方便。
– Gradle——这是一个开源的自动化构建工具,具有不同的功能,如依赖管理等。
– HtmlUnit:在抓取时,它可以轻松浏览点击和提交表单等事件。此外,它甚至支持 JavaScript。
右键单击您要抓取的页面上的任意位置,然后单击“检查元素”。当您的开发人员控制台出现时,您应该能够弄清楚该网站的 HTML。
要获取 HTML,您必须先使用 HtmlUnit发送HTTP 请求。这基本上会返回您的文档并为此想法编写所需的代码。
作为响应,该网站将发回一个 HtmlPage。得到答案后,一定要记得关闭连接,否则整个过程还会继续。
重要的是要知道 HtmlUnit 会在您的控制台中向您显示错误消息,这将迫使您认为您的 PC 已损坏。好吧,98% 的时间都无需担心,这没什么。
大多数时候,当 HtmlUnit 尝试从网站服务器运行 JavaScript 代码时,它们就会发生。然而,其中一些确实可能是真正的错误,可能表明代码存在严重错误,因此在运行程序时应注意。
您现在有了 HTML 文档,您需要获取数据。所以,把之前的回答都变成信息,帮助人们理解。
首先,弄清楚如何获得您网站的标题。借助内置方法 TitleText,您可以轻松地做到这一点。
HtmlUnit 有很多易于理解的内置方法,因此您不必花费数小时阅读文档。
当您的数据需要发送到任何其他应用程序时,这种提取确实很有帮助。因此,为此,您需要将已解析的数据导出到应用程序外部的文件中。