如何在 Selenium 中获取 HTML 源码？

在 Selenium 网页抓取实践中，需先获取目标页面的 HTML 源码。该步骤对于处理动态网页尤其关键——此类页面的内容会随用户交互行为或 JavaScript 脚本执行实时变化。Selenium 作为自动化测试利器，实现这一需求非常便捷。

使用 Selenium，通过调用 page_source 属性即可直接获取网页完整 HTML 源码。该属性可获取当前页面的完整HTML内容，供后续按需解析或处理。以下是基于 Python 的 Selenium HTML 源码获取实现范例：

      from selenium import webdriver

# Set up the WebDriver (using Chrome in this example)
driver = webdriver.Chrome()

# Navigate to the desired webpage
driver.get('https://www.example.com')

# Get the HTML source of the page
html_source = driver.page_source

# Print the HTML source
print(html_source)

# Close the WebDriver
driver.quit()

在范例中，网络驱动程序（WebDriver）首先导航至指定URL，通过 page_source 获取 HTML 源码并输出打印。这种方法对于抓取动态网站非常有用，因为它能够捕获任何 JavaScript 代码执行完毕后完全渲染的HTML内容。

结语

使用 Selenium 实施网页抓取的优势在于：支持与网页元素交互、模拟用户操作行为，并能从动态网站可靠提取数据。但需注意，自主构建和维护抓取工具将面临耗时且复杂的工程挑战。作为解决方案，您可以直接利用 Bright Data 的网页抓取 API 实现轻松抓取。这些 API 封装了所有底层抓取逻辑，通过标准化 API 向应用程序输出结构化数据，既免除了抓取工具的运维负担，并能保障高质量数据产出。

开始免费试用

获得全球超20000 位客户的信赖