Subscribe to our YouTube channel
Durante un juicio federal en Washington, un alto ejecutivo de Google reveló que la empresa puede seguir utilizando contenido de sitios web para entrenar su inteligencia artificial aplicada a búsquedas —como AI Overviews— incluso cuando los editores han optado por excluir su contenido del entrenamiento de modelos de IA de Google DeepMind.
El vicepresidente de producto de DeepMind, Eli Collins, declaró que esta restricción solo aplica a DeepMind, pero otras divisiones de Google, como la encargada de Search, sí pueden usar esos datos, mientras sea con fines relacionados a la búsqueda web.
“Una vez que colocas el modelo Gemini dentro del equipo de búsqueda, este tiene la capacidad de entrenarse con datos de editores que se opusieron, siempre que sea con fines de búsqueda”, confirmó Collins ante el Departamento de Justicia.
¿Qué significa esto para los sitios web?
Muchos editores han denunciado que la función de respuestas automáticas con IA de Google reduce el tráfico a sus páginas. A pesar de estar alimentadas por contenido externo, estas respuestas ofrecen la información directamente desde el buscador, lo que disminuye los clics hacia los sitios originales.
Para evitar que su contenido sea usado para entrenar IAs, los editores deben bloquear por completo el rastreo en Google Search, usando archivos robots.txt
. No existe una opción más específica para impedir únicamente el uso en entrenamiento de modelos de IA de búsqueda.
¿Qué está en juego en este juicio?
Este testimonio se da en el marco de un proceso judicial histórico, donde el Departamento de Justicia de EE.UU. acusa a Google de mantener un monopolio ilegal en el mercado de búsquedas. El juez Amit Mehta ya falló en 2023 que Google violó las leyes antimonopolio, y ahora se debaten las medidas correctivas.
Entre las propuestas están:
- Obligar a Google a vender el navegador Chrome.
- Prohibir que Google pague para ser el buscador predeterminado en dispositivos.
- Restringir su ventaja en IA obtenida por ser líder en búsquedas.
¿Cuánta información está usando Google?
Un documento interno revelado en el juicio muestra que Google filtró 80 mil millones de tokens (fragmentos de texto) de un total de 160 mil millones, tras eliminar datos de editores que optaron por no participar. Sin embargo, también se menciona que datos de YouTube y de sesiones de búsqueda se usan para mejorar modelos como Gemini.
Además, el CEO de DeepMind, Demis Hassabis, planteó experimentar con el uso de datos de búsqueda (como rankings) para mejorar los modelos de IA. Aunque Google dice no haber usado esos datos aún, la intención está sobre la mesa.