Reddit presentó una demanda contra Perplexity junto con varias otras empresas de minería de datos, acusándolas de robar datos valiosos de la plataforma de redes sociales.

La demanda de Reddit, presentada el miércoles en el tribunal federal de Manhattan, dice que Perplejidad y Otras tres empresas demandadas (Oxylabs UAB, AWM Proxy y SerpApi) eludieron ilegalmente las vallas digitales de Reddit al extraer contenido de los resultados del motor de búsqueda de Google.

“Estos acusados ​​tienen un parecido sorprendente con los posibles ladrones de bancos. Que sabían que no podían entrar en la bóveda del banco. En lugar de eso, irrumpieron en un camión blindado que transportaba dinero en efectivo”, alega la demanda de Reddit.

Reddit dijo que envió una carta de cese y desistimiento a Perplexity en mayo de 2024, pidiéndole que dejara de recopilar datos de Reddit a menos que llegue a acuerdos con empresas de redes sociales, como lo han hecho Google y OpenAI.

Perplexity dijo que “no utiliza el contenido de Reddit para entrenar ningún modelo de IA y respeta el archivo robots.txt de Reddit”, según la demanda.

Pero las referencias de Perplexity a Reddit aumentaron “cuarenta veces después de que Reddit le dijera que se detuviera”, agrega la demanda.

“En lugar de respetar Reddit y los derechos de sus usuarios, lo que Perplexity ha hecho en respuesta ha sido un plan cada vez más tortuoso para eludir los sistemas y las políticas de seguridad de Reddit”, dice la demanda.

Según la demanda, Perplexity parece utilizar al menos un raspador de datos para importar los datos de la plataforma a sus modelos de IA.

En otras palabras, el modelo de negocio de Perplexity es eficiente porque toma el contenido de Reddit de los resultados de búsqueda de Google y lo introduce en un LLM de terceros. y llamarlo un nuevo producto”, dice la demanda, “a pesar de que el modelo de negocio está valorado en 20 mil millones de dólares. Pero no resulta en una disposición a pagar por lo que otros (incluido Google) tienen”.

Jesse Dwyer, portavoz de Perplexity, dijo que la empresa “luchará duramente por los derechos de los usuarios a un acceso libre y justo al conocimiento público”.

“Nuestro enfoque sigue siendo responsable y basado en principios, ya que brindamos respuestas basadas en hechos con IA precisa, y no toleraremos amenazas a la apertura y al interés público”, dijo Dwyer.

Un representante de SerpApi dijo que la compañía no está de acuerdo con las acusaciones de Reddit y planea defenderse ante los tribunales. “En serio”

Un portavoz de Reddit confirmó a Business Insider que la empresa ha gastado decenas de millones de dólares en sistemas anti-scraping. La demanda afirma que estas empresas son evasivas.

La demanda dice que Reddit sorprendió a Perplexity saltando la valla al establecer un puesto de prueba que actuaba como un “billete marcado” digital.

Las publicaciones de prueba sólo pueden ser vistas por el motor de búsqueda de Google, según la demanda, por lo que Perplexity y otras empresas de inteligencia artificial no pueden usarlas en sus modelos.

El contenido de la publicación pronto apareció en Perplexity, indicando que él u otro raspador de datos con el que trabajaba había tomado el contenido sin permiso.

“En unas pocas horas, una consulta al ‘sistema de respuesta’ de Perplexity también generó el contenido de la publicación de prueba”, afirma la demanda de Reddit.

La demanda de Reddit cita una publicación en las redes sociales del CEO de Cloudflare que compara a Perplexity con los “hackers norcoreanos” por intentar ocultar sus actividades de rastreo web.

“Algunas empresas de inteligencia artificial ‘famosas’ actúan más como hackers norcoreanos”, escribió Matthew Prince en X en agosto. “Es hora de nombrarlos, avergonzarlos y bloquearlos con fuerza”.

Los representantes de SerpApi y Oxylabs no respondieron de inmediato a la solicitud de comentarios de Business Insider. No se pudo contactar de inmediato a AWMProxy para hacer comentarios.

En una declaración a Business Insider, el director jurídico de Reddit, Ben Lee, dijo que Oxylabs UAB, AWM Proxy y SerpApi son “ejemplos de libro de texto” de scrapers ilegales.

“Los raspadores eluden las protecciones tecnológicas para robar datos y luego venderlos a clientes que necesitan materiales de capacitación”, dijo. “Reddit es un objetivo importante porque tiene una de las colecciones de conversaciones humanas más grandes y dinámicas jamás creadas”.

Reddit se lanzó en 2005 como un foro de discusión en línea. Pero ahora intenta agregar valor a través de una nueva estrategia: el volumen de búsqueda. La decisión pone a Reddit en competencia con empresas como Perplexity.

“Reddit es una de las pocas plataformas que se convierte en un verdadero destino de búsqueda. Ofrecemos algo especial: una amplia gama de conversaciones y conocimientos que no puedes encontrar en ningún otro lugar”, dijo la compañía en su informe del segundo trimestre de julio. “Cada semana, cientos de millones de personas vienen a Reddit para pedir consejo. Y estamos convirtiendo esa intención en usuarios activos en la búsqueda nativa de Reddit”.

El tráfico de búsqueda online se ha convertido en una industria rentable. Esto fue liderado por empresas como Google, que anunció una asociación ampliada con Reddit en marzo de 2024 para entrenar modelos de inteligencia artificial en el contenido de la plataforma. Al final, Reddit obtuvo acceso a Vertex AI de Google, lo que permitió a la plataforma agregar búsquedas mejoradas y otras funciones. Un mes después, Reddit salió a bolsa con una valoración de 6.400 millones de dólares.



Fuente