如何使用 Python 抓取 Google 图片

使用 Python 和 Selenium 抓取 Google 图片的分步指南,涵盖从设置到图片保存的全过程。
10 min read
如何抓取 Google 图片

Google 图片是网络上最难抓取数据的网站之一。虽然该网站没有明确拦截抓取工具,但确实会让您在获取数据时费尽周折……如果想要获取数据,必须付出真正的努力!

相比常规 HTML 抓取,Google 图片的抓取犹如解谜游戏,需要应对动态 CSS 选择器、Base64 编码等各种挑战。

先决条件

要按照本指南抓取 Google 图片,您需要具备 Python 和 Selenium 的基础知识。请确保已安装 Selenium。如有需要,建议您详细了解使用 Python 和 Selenium 抓取网页相关内容。

首先,确保已安装 ChromeDriver 和 Chrome 浏览器。您可以点击此处下载最新版本。

下载 ChromeDriver 时,请确保选择的版本与 Chrome 浏览器版本相匹配。

您可以使用以下命令检查 Chrome 浏览器版本。

google-chrome --version

输出结果应类似于下方内容。

Google Chrome 131.0.6778.139 

完成上述步骤后,即可通过 pip 命令安装 Selenium。

pip install selenium

抓取目标

我们不能贸然编写代码,必须先明确抓取目标和提取方法。如前所述,抓取 Google 图片的过程堪比解谜。

我们来分析一张来自 Google 的图片。这张图片实际上嵌入在名为 g-img 的自定义 HTML 标签中。我们需要找出所有这些 g-img 元素。

在 Google 图片上检查图片

找到所有 g-img 标签后,需要提取其中的 img 元素。下方展示了其中一个示例。

检查 img 元素

如果仔细查看该 img 元素,就会发现一些不同寻常的特征。它的 src 属性是一个包含大量看似随机字符的奇怪字符串。



该字符串的开头部分(data:image/jpeg;base64,)揭示了关键信息,其中 jpeg 表明这是 JPEG 文件,base64 则表明使用了 Base64 编码方式。对该字符串进行解码,实际上会得到图片的二进制数据。由于图片的二进制数据直接嵌入在网页中,我们无法追踪图片的真实来源。但是,我们可以通过将二进制数据写入文件来还原图片。

使用 Python 抓取 Google 图片

明确抓取目标之后,即可着手编写抓取工具代码了。在接下来的章节中,我们将逐步构建抓取工具,并详细讲解代码的功能。

立即开始

首先,创建新的 Python 文件。我们先从基本的导入语句和结构开始。

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • 从 Selenium 中导入 webdriverBy,其中 webdriver 用于控制浏览器,By 用于查找页面上的元素。
  • 使用 sleep 让抓取工具暂停一段时间。例如,如果想让抓取工具等待一秒钟,可以使用 sleep(1)
  • 想必您已经猜到,base64 将用于解码图片二进制数据。
  • 使用 Path 将图片写入存放结果的文件夹。
  • 通过 options = webdriver.ChromeOptions(),在 Selenium 中使用自定义设置。这主要是为了确保 Selenium 以无头模式运行。通过无头模式,我们可以在不渲染实际浏览器界面的情况下运行抓取工具,这样可以节省宝贵的资源。

抓取 Google 图片

接下来,我们将编写抓取函数。下方代码包含了整个抓取工具的实现。请特别关注 scrape_images()

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • headless 设置为默认值 True。如果将其设置为 False,则会在屏幕上显示一个真实的浏览器窗口。这对调试非常有用。
  • 删除实际 keyword 中的空格,创建 formatted_keywordfolder_name,这样可以避免文件存储时出现问题。
  • 使用 webdriver.Chrome(options=options) 启动浏览器。
  • 使用 driver.get(f"https://www.google.com/search?q={formatted_keyword}") 跳转到 keyword 对应的 Google 搜索结果页面。
  • 接下来需要点击图片选项卡,只需找到所有具有 role=listitem 属性的 div 元素即可。然后使用 list_items[1].click() 点击第二个元素,即图片选项卡。
  • 使用 while 循环反复运行抓取代码,直至找到所需的全部图片。
  • 使用 driver.execute_script("window.scrollBy(0, 300);") 运行 JavaScript 代码,将页面向下滚动 300 像素。滚动后,使用 sleep() 暂停一秒钟,等待内容加载。
  • 使用 driver.find_elements(By.CSS_SELECTOR, "g-img > img") 查找所有嵌套在 g-img 标签中的 img 标签。
  • 接下来,遍历找到的所有 img 元素。
  • 如果 img 的 src 属性不是以 data:image/ 开头,则可以使用 continue 跳过该元素;否则,就提取其 src 属性。
  • 使用基本的字符串分割方法提取编码后的二进制数据和文件扩展名(如 JPEG、PNG 等)。如果扩展名是 GIF,则跳过。由于某些原因,GIF 图片在写入文件时无法显示。
  • 使用 base64.b64decode(base64_binary) 将图片解码成机器可读的二进制数据。

运行代码后,项目文件夹中会出现一个新文件夹,其中应该包含了所有下载的图片。

包含大量 .png 文件的结果文件夹

建议使用 Bright Data

我们的 SERP API 可解析 Google 图片,省去了您自己解析的麻烦。它甚至能提取图片元数据,让图片保持其原有的名称。当然,该 API 完全可扩展,能够处理海量请求。

首先,注册我们的 SERP API

准备就绪后,完成 zone 的创建。

完成 zone 的创建

在“访问详情”下,找到凭据信息。

您的 SERP API 凭据

将以下代码复制并粘贴到 Python 文件中。将 proxy_auth 中的凭据替换为您自己的凭据,即可运行。

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

运行代码后,您会再次获得一堆图片。不同的是,这次的图片都带有名称。

使用 SERP API 获取的图片结果

结语

总而言之,Google 图片的抓取过程就像是在缺少部分拼图的情况下解谜。我们的 Google Images API 能够获取元数据,无需使用 Selenium!

如果您需要从其他来源抓取图片,我们还提供 Instagram Image APIShutterstock Scraper各种结构化数据集。立即注册,寻找最适合您需求的产品,更有免费试用等着您!