Perplejidad acusada de rasparse sitios web que bloquearon explícitamente el raspado de IA

La perplejidad del inicio de IA está arrastrando y raspando contenido de sitios web que han indicado explícitamente que no quieren ser raspados, según el proveedor de infraestructura de Internet CloudFlare.
El lunes, Cloudflare investigación publicada Decir que observó que la startup de IA ignora los bloques y oculta sus actividades de rastreo y raspado. El gigante de la infraestructura de la red acusó a la perplejidad de oscurecer su identidad al tratar de raspar las páginas web “en un intento por eludir las preferencias del sitio web”, escribieron los investigadores de Cloudflare.
Los productos de IA como los ofrecidos por la perplejidad dependen de engullir grandes cantidades de datos de Internet, y las nuevas empresas de IA tienen mensajes de texto, imágenes y videos de Internet muchas veces sin permiso para que sus productos funcionen. En los últimos tiempos, los sitios web han intentado luchar utilizando el archivo Web Standard Robots.txt, que le dice a los motores de búsqueda y a las compañías de IA qué páginas pueden ser indexadas y que no deberían, esfuerzos que han visto resultados mixtos hasta ahora.
La perplejidad parece estar eludiendo voluntariamente estos bloques cambiando el “agente de usuarios” de sus bots, lo que significa una señal que identifica a un visitante del sitio web por su dispositivo y tipo de versión, además de cambiar sus redes de sistemas autónomos, o ASN, esencialmente un número que identifica grandes redes en Internet, según CloudFlare.
“Esta actividad se observó a través de decenas de miles de dominios y millones de solicitudes por día. Pudimos hacer huellas digitales a este rastreador utilizando una combinación de aprendizaje automático y señales de red”, decía la publicación de Cloudflare.
El portavoz de perplejo, Jesse Dwyer, desestimó la publicación del blog de Cloudflare como un “argumento de venta”, agregando un correo electrónico a TechCrunch que las capturas de pantalla en la publicación “Muestre que no se accedió a contenido”. En un correo electrónico de seguimiento, Dwyer afirmó que el bot nombrado en el blog de Cloudflare “ni siquiera es nuestro”.
Cloudflare dijo que primero notó el comportamiento después de que sus clientes se quejaron de que la perplejidad estaba arrastrando y raspando sus sitios, incluso después de agregar reglas en su archivo de robots y para bloquear específicamente los bots conocidos de la perplejidad. Cloudflare dijo que luego realizó pruebas para verificar y confirmó que la perplejidad estaba eludiendo estos bloques.
Evento de TechCrunch
San Francisco
|
27-29 de octubre de 2025
“Observamos que los usos de perplejidad no solo su agente de usuario declarado, sino también un navegador genérico destinado a hacerse pasar por Google Chrome en macOS cuando su rastreador declarado estaba bloqueado”, según CloudFlare.
La compañía también dijo que ha eliminado los bots de Perplexity de su lista verificada y ha agregado nuevas técnicas para bloquearlos.
Cloudflare ha adoptado recientemente una postura pública contra los rastreadores de IA. El mes pasado, Cloudflare anunció el lanzamiento de un mercado permitiendo a los propietarios y editores de sitios web cobrar a los raspadores de IA que visitan sus sitios. El director ejecutivo de Cloudflare, Matthew Prince sonaba la alarma En ese momento, diciendo que AI está rompiendo el modelo de negocio de Internet, particularmente los editores. El año pasado, Cloudflare también lanzó una herramienta gratuita Para evitar que los bots raspen los sitios web para entrenar la IA.
Esta no es la primera perplejidad, se acusa de rasparse sin autorización.
El año pasado, medios de comunicación, como cableadopresunto La perplejidad estaba plagio de su contenido. Semanas después, el CEO de Perplexity, Aravind Srinivas, no pudo responder inmediatamente Cuando se le pidió que proporcione la definición de plagio de la compañía durante una entrevista con Devin Colhewey de TechCrunch en la Conferencia Disrupt 2024.