Cómo raspar Google Imágenes con Python

Una guía paso a paso para raspar Google Imágenes con Python y Selenium, desde la configuración hasta el almacenamiento de imágenes.
15 min read
How to Scrape Google Images blog image

Google Imágenes es uno de los sitios web más difíciles de raspar. No bloquean explícitamente los raspadores, pero te hacen sudar la gota gorda para conseguir los datos… ¡Tienes que quererlos!

Desde selectores CSS dinámicos hasta codificación Base64, raspar Google Imágenes se parece mucho más a la resolución de un rompecabezas que al raspado de HTML convencional.

Requisitos previos

Para raspar Google Imágenes con nosotros, debes tener conocimientos básicos de Python y Selenium. También deberás asegurarte de tener Selenium instalado. Te aconsejamos obtener más información sobre el raspado web con Python y Selenium si lo necesitas.

Primero, asegúrate de tener ChromeDriver y Chrome instalados. Puedes descargar la versión más reciente aquí.

Al descargar ChromeDriver, asegúrate de que la versión coincide con tu versión de Chrome.

Puedes comprobar tu versión de Chrome con el siguiente comando.

google-chrome --version

El resultado debe ser similar al que se muestra a continuación.

Google Chrome 131.0.6778.139 

Una vez que los tengas, puedes instalar Selenium con pip.

pip install selenium

Qué raspar

No podemos meternos de cabeza en el código. Tenemos que hacernos una mejor idea de lo que vamos a raspar y cómo lo vamos a extraer. Como hemos dicho, raspar Google Imágenes es como resolver un acertijo.

Examinemos una de las imágenes de Google. Esta imagen está incrustada en una etiqueta HTML personalizada llamada g-img. Tendremos que encontrar todos estos elementos g-img. 

Cómo inspeccionar una imagen en Imágenes de Google

Una vez que hayamos encontrado todas las etiquetas g-img , necesitamos extraer sus elementos img.  Puedes ver una de ellas a continuación.

Cómo inspeccionar el elemento img

Si has observado el img de cerca, habrás notado algo muy extraño. El src es una extraña cadena de caracteres aparentemente aleatorios.



El principio de esta cadena contiene la clave de todo:  nos dice que se trata de un archivo JPEG, mientras que base64 nos dice que está codificado con Base64. Al decodificar esta cadena, obtenemos el binario de la imagen. En realidad, no podemos rastrear la verdadera fuente de la imagen, ya que su binario se encuentra dentro de la página web. Sin embargo, podemos escribir este binario en un archivo y recrear la imagen.

Cómo raspar Google Imágenes con Python

Ahora que sabemos lo que queremos, es hora de empezar a codificar nuestro raspador. En las siguientes secciones, montaremos el raspador y veremos exactamente lo que hace el código.

Cómo empezar

Sigue adelante y crea un nuevo archivo de Python. Empezaremos con nuestras importaciones y estructura básicas.

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Importamos webdriver y By desde Selenium. webdriver se usa para controlar nuestro navegador. By se usa para localizar artículos en la página.
  • Usaremos sleep para pausar el raspador por un tiempo. Por ejemplo, si queremos que el raspador espere un segundo, usaremos sleep(1).
  • Como habrás supuesto, base64 decodificará los binarios de nuestras imágenes.
  • Path se usará para escribir nuestras imágenes en una carpeta que contenga nuestros resultados.
  • options = webDriver.chromeOptions() nos permite usar configuraciones personalizadas con Selenium. Principalmente, sirve para ejecutar Selenium en modo «headless».  El modo «headless» nos permite ejecutar el raspador sin renderizar el navegador real en el equipo. Así ahorramos recursos valiosos.

Cómo raspar Google Imágenes

A continuación, escribiremos nuestra función de raspado. El siguiente código contiene todo nuestro raspador. Presta mucha atención a scrape_images().

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Establecemos headless en True de forma predeterminada. Si el usuario lo establece en False, se abrirá un navegador real que puedes ver en la pantalla. Esto resulta útil para fines de depuración.
  • Creamos formatted_keyword y folder_name eliminando los espacios de nuestra palabra clave real. Así podremos almacenar los archivos sin problemas.
  • Lanzamos el navegador con WebDriver.chrome(options=options).
  • driver.get(f"https://www.google.com/search?q={formatted_keyword}") nos lleva a los resultados de búsqueda de Google de nuestra palabra clave.
  • Ahora tenemos que hacer clic en la pestaña de imágenes. Para ello, buscamos todos los elementos div con el rol listitemlist_items[1].click() hace clic en el segundo elemento, la pestaña de imágenes.
  • Usamos un bucle while para ejecutar el código de raspado una y otra vez hasta que hayamos encontrado todas las imágenes que queremos.
  • driver.execute_script("window.scrollBy(0, 300);") ejecuta JavaScript para desplazar la página 300 píxeles hacia abajo. Tras desplazarnos, usamos sleep() durante un segundo mientras se cargan los contenidos.
  • driver.find_elements(By.CSS_SELECTOR, "g-img > img") se utiliza para buscar todas las etiquetas img que están anidadas dentro de un g-img.
  • A continuación, revisamos los elementos img que hemos encontrado.
  • Si el img no empieza por data:image/, usamos continue para omitirlo. De lo contrario, extraemos su atributo src
  • Usamos una división básica de cadenas para extraer el binario codificado y la extensión del archivo (JPEG, PNG, etc.). Si la extensión es un GIF, la omitimos. Por alguna razón, los GIF no se muestran al escribirlos en un archivo.
  • base64.b64decode(base64_binary) decodifica nuestra imagen en un binario real legible por máquina.

Si ejecutas el código, aparecerá una nueva carpeta dentro de la carpeta de tu proyecto. Estará llena de imágenes.

La carpeta de resultados llena de archivos.png

Plantéate utilizar Bright Data

Nuestra API SERP analiza Google Imágenes para que tú no tengas que hacerlo. Incluso encuentra los metadatos de las imágenes, por lo que nuestras imágenes tendrán nombres reales. Y, por supuesto, la API es totalmente escalable y puede gestionar una enorme cantidad de solicitudes.

Para empezar, regístrate en nuestra API SERP.

Cuando tengas todo listo, termina de crear la zona.

Cómo finalizar la creación de la zona

En Access Details (Detalles de acceso), verás tus credenciales.

Tus credenciales de la API SERP

Copia y pega el siguiente código en un archivo Python. Sustituye las credenciales de proxy_auth por las tuyas propias y listo.

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

si ejecutas el código, volverás a obtener un montón de imágenes, pero esta vez, todas tendrán nombres.

Resultados de imágenes mediante la API SERP

Conclusión

En conclusión, raspar Google Imágenes es como intentar resolver un rompecabezas sin tener todas las piezas. ¡Nuestra API de Google Imágenes encuentra los metadatos y no requiere usar Selenium!

Si necesitas raspar imágenes de otras fuentes, también tenemos una API de imágenes de Instagram, Shutterstock Scrapery diversos conjuntos de datos estructurados. Regístrate ahora para encontrar el producto ideal para tus necesidades, ¡incluida una prueba gratuita!

No se requiere tarjeta de crédito