La carrera para bloquear los robots de raspado de OpenAI se está desacelerando

Es demasiado pronto para decir cómo se desarrollará la ola de acuerdos entre empresas de IA y editores. Sin embargo, OpenAI ya obtuvo una clara victoria: sus rastreadores web ya no son bloqueados por los principales medios de comunicación al ritmo que antes.

El auge de la IA generativa ha provocado una fiebre del oro por los datos y una posterior fiebre por la protección de datos (al menos para la mayoría de los sitios de noticias) en la que los editores han intentado bloquear los rastreadores de inteligencia artificial y evitar que su trabajo se convierta en datos de entrenamiento sin consentimiento. Cuando Apple lanzó un nuevo agente de inteligencia artificial este verano, por ejemplo, una gran cantidad de importantes medios de comunicación rápidamente optaron por no participar en el web scraping de Apple utilizando el Protocolo de exclusión de robots, o robots.txt, el archivo que permite a los webmasters controlar los robots. Hay tantos robots nuevos con IA en escena que puede parecer como jugar un juego de «Whack-a-Mole» para mantenerse al día.

GPTBot de OpenAI tiene el mayor reconocimiento de nombre y también se bloquea con más frecuencia que competidores como Google AI. Según un análisis de 1000 sitios web de medios de primer nivel que utilizan robots.txt para «no permitir», GPTBot de OpenAI aumentó drásticamente desde su lanzamiento en agosto de 2023 hasta el otoño, y luego aumentó de manera constante (pero de forma más gradual) desde noviembre de 2023 hasta abril de 2024. Medios de comunicación de la startup de detección de IA Originality AI, con sede en Ontario. En su apogeo, el pico fue de poco más de un tercio de los sitios web; ahora ha caído más cerca de una cuarta parte. Dentro de un grupo más pequeño de importantes medios de comunicación, la tasa de bloqueo todavía está por encima del 50%, pero está por debajo de los niveles de casi el 90% a principios de año.

Pero en mayo pasado, después de que Dotdash Meredith anunciara un acuerdo de licencia con OpenAI, ese número se redujo significativamente. Luego volvió a caer a finales de mayo, cuando Vox anunció su propio acuerdo, y una vez más en agosto, cuando la empresa matriz de WIRED, Condé Nast, llegó a un acuerdo. La tendencia hacia mayores confinamientos parece haber terminado, al menos por ahora.

Estas caídas obviamente tienen sentido. Cuando las empresas forman asociaciones y dan permiso para que se utilicen sus datos, ya no tienen un incentivo para bloquearlos, por lo que actualizarían sus archivos robots.txt para permitir el escaneo; Haga suficientes negocios y es casi seguro que el porcentaje general de sitios que bloquean rastreadores disminuirá. Algunos medios desbloquearon los rastreadores de OpenAI el mismo día que anunciaron un acuerdo, como The Atlantic. Otros tardaron unos días o semanas, como Vox, que anunció su asociación a finales de mayo pero desbloqueó GPTBot en sus propiedades a finales de junio.

Robots.txt no es legalmente vinculante, pero ha servido durante mucho tiempo como estándar que rige el comportamiento de los rastreadores web. Durante gran parte de la existencia de Internet, las personas que mantienen páginas web esperan que los demás las respeten. Cuando una investigación de WIRED a principios de este verano descubrió que la startup de inteligencia artificial Perplexity probablemente había optado por ignorar los comandos robots.txt, la división de nube de Amazon inició una investigación para determinar si Perplexity había violado sus reglas. No es una buena idea ignorar el archivo robots.txt, lo que probablemente explica por qué tantas empresas importantes de IA, incluida OpenAI, afirman explícitamente que lo utilizan para determinar qué escanear. El director ejecutivo de Originality AI, Jon Gillham, cree que esto añade mayor urgencia al impulso de OpenAI para cerrar acuerdos. «Está claro que OpenAI ve el bloque como una amenaza para sus ambiciones futuras», dice Gillham.