Google 图片是网络上最难抓取数据的网站之一。虽然该网站没有明确拦截抓取工具,但确实会让您在获取数据时费尽周折……如果想要获取数据,必须付出真正的努力!
相比常规 HTML 抓取,Google 图片的抓取犹如解谜游戏,需要应对动态 CSS 选择器、Base64 编码等各种挑战。
先决条件
要按照本指南抓取 Google 图片,您需要具备 Python 和 Selenium 的基础知识。请确保已安装 Selenium。如有需要,建议您详细了解使用 Python 和 Selenium 抓取网页相关内容。
首先,确保已安装 ChromeDriver 和 Chrome 浏览器。您可以点击此处下载最新版本。
下载 ChromeDriver 时,请确保选择的版本与 Chrome 浏览器版本相匹配。
您可以使用以下命令检查 Chrome 浏览器版本。
google-chrome --version
输出结果应类似于下方内容。
Google Chrome 131.0.6778.139
完成上述步骤后,即可通过 pip
命令安装 Selenium。
pip install selenium
抓取目标
我们不能贸然编写代码,必须先明确抓取目标和提取方法。如前所述,抓取 Google 图片的过程堪比解谜。
我们来分析一张来自 Google 的图片。这张图片实际上嵌入在名为 g-img
的自定义 HTML 标签中。我们需要找出所有这些 g-img
元素。
找到所有 g-img
标签后,需要提取其中的 img
元素。下方展示了其中一个示例。
如果仔细查看该 img
元素,就会发现一些不同寻常的特征。它的 src
属性是一个包含大量看似随机字符的奇怪字符串。

该字符串的开头部分(data:image/jpeg;base64,
)揭示了关键信息,其中 jpeg
表明这是 JPEG 文件,base64
则表明使用了 Base64 编码方式。对该字符串进行解码,实际上会得到图片的二进制数据。由于图片的二进制数据直接嵌入在网页中,我们无法追踪图片的真实来源。但是,我们可以通过将二进制数据写入文件来还原图片。
使用 Python 抓取 Google 图片
明确抓取目标之后,即可着手编写抓取工具代码了。在接下来的章节中,我们将逐步构建抓取工具,并详细讲解代码的功能。
立即开始
首先,创建新的 Python 文件。我们先从基本的导入语句和结构开始。
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
"""
Our actual scraping logic will go here
"""
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- 从 Selenium 中导入
webdriver
和By
,其中webdriver
用于控制浏览器,By
用于查找页面上的元素。 - 使用
sleep
让抓取工具暂停一段时间。例如,如果想让抓取工具等待一秒钟,可以使用sleep(1)
。 - 想必您已经猜到,
base64
将用于解码图片二进制数据。 - 使用
Path
将图片写入存放结果的文件夹。 - 通过
options = webdriver.ChromeOptions()
,在 Selenium 中使用自定义设置。这主要是为了确保 Selenium 以无头模式运行。通过无头模式,我们可以在不渲染实际浏览器界面的情况下运行抓取工具,这样可以节省宝贵的资源。
抓取 Google 图片
接下来,我们将编写抓取函数。下方代码包含了整个抓取工具的实现。请特别关注 scrape_images()
。
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
def scrape_images(keyword, batch_size, headless=True):
if headless:
options.add_argument("--headless")
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
result_count = 0
driver = webdriver.Chrome(options=options)
driver.get(f"https://www.google.com/search?q={formatted_keyword}")
sleep(1)
list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
list_items[1].click()
while result_count < batch_size:
driver.execute_script("window.scrollBy(0, 300);")
sleep(1)
img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
for img_tag in img_tags:
src = img_tag.get_attribute("src")
if not src or not src.startswith("data:image/"):
continue
base64_binary = src.split("base64,")[-1]
mime_type = src.split(";")[0].split(":")[1]
file_extension = mime_type.split("/")[-1]
if file_extension == "gif":
continue
alt_text = img_tag.get_attribute("alt") or "image"
filename = f"{alt_text}-{result_count}.{file_extension}"
image_binary = base64.b64decode(base64_binary)
output_path = output_folder.joinpath(filename)
with open(output_path, "wb") as file:
file.write(image_binary)
result_count+=1
print(f"Saved: {filename}")
driver.quit()
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- 将
headless
设置为默认值True
。如果将其设置为False
,则会在屏幕上显示一个真实的浏览器窗口。这对调试非常有用。 - 删除实际
keyword
中的空格,创建formatted_keyword
和folder_name
,这样可以避免文件存储时出现问题。 - 使用
webdriver.Chrome(options=options)
启动浏览器。 - 使用
driver.get(f"https://www.google.com/search?q={formatted_keyword}")
跳转到keyword
对应的 Google 搜索结果页面。 - 接下来需要点击图片选项卡,只需找到所有具有 role=
listitem
属性的div
元素即可。然后使用list_items[1].click()
点击第二个元素,即图片选项卡。 - 使用
while
循环反复运行抓取代码,直至找到所需的全部图片。 - 使用
driver.execute_script("window.scrollBy(0, 300);")
运行 JavaScript 代码,将页面向下滚动 300 像素。滚动后,使用sleep()
暂停一秒钟,等待内容加载。 - 使用
driver.find_elements(By.CSS_SELECTOR, "g-img > img")
查找所有嵌套在g-img
标签中的img
标签。 - 接下来,遍历找到的所有
img
元素。 - 如果
img
的 src 属性不是以data:image/
开头,则可以使用continue
跳过该元素;否则,就提取其src
属性。 - 使用基本的字符串分割方法提取编码后的二进制数据和文件扩展名(如 JPEG、PNG 等)。如果扩展名是 GIF,则跳过。由于某些原因,GIF 图片在写入文件时无法显示。
- 使用
base64.b64decode(base64_binary)
将图片解码成机器可读的二进制数据。
运行代码后,项目文件夹中会出现一个新文件夹,其中应该包含了所有下载的图片。
建议使用 Bright Data
我们的 SERP API 可解析 Google 图片,省去了您自己解析的麻烦。它甚至能提取图片元数据,让图片保持其原有的名称。当然,该 API 完全可扩展,能够处理海量请求。
首先,注册我们的 SERP API。
准备就绪后,完成 zone 的创建。
在“访问详情”下,找到凭据信息。
将以下代码复制并粘贴到 Python 文件中。将 proxy_auth
中的凭据替换为您自己的凭据,即可运行。
import requests
import base64
from pathlib import Path
import json
proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"
def scrape_images(keyword):
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"serp-results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"
response = requests.get(
url,
proxies={"http": proxy_url, "https": proxy_url},
verify=False
)
images = response.json()["images"]
result_count = 0
for image in images:
image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
title = image["title"].replace(" ", "-").replace("/", "").strip(".")
file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
if file_extension == "gif":
continue
filename = f"{title}.{file_extension}"
with open(output_folder.joinpath(filename), "wb") as file:
file.write(image_binary)
print(f"Saved: {filename}")
if __name__ == "__main__":
scrape_images("linux penguin")
运行代码后,您会再次获得一堆图片。不同的是,这次的图片都带有名称。
结语
总而言之,Google 图片的抓取过程就像是在缺少部分拼图的情况下解谜。我们的 Google Images API 能够获取元数据,无需使用 Selenium!
如果您需要从其他来源抓取图片,我们还提供 Instagram Image API、Shutterstock Scraper和各种结构化数据集。立即注册,寻找最适合您需求的产品,更有免费试用等着您!