Si alguna vez se ha preguntado cómo las empresas de inteligencia artificial como Google, Anthropic, OpenAI y Meta obtienen sus datos de capacitación de editores de pago, p. Los New York Times, cableadoo El Correo de WashingtonEs posible que finalmente tengamos una respuesta.
En Una investigación detallada para D el atlánticoEl periodista Alex Reisner reveló que varias empresas importantes de inteligencia artificial se han asociado silenciosamente con la Common Crawl Foundation, una organización sin fines de lucro que rastrea la web para crear un archivo público masivo de Internet con fines de investigación. Según el informe, Common Crawl, cuya base de datos abarca varios petabytes, abrió efectivamente una puerta trasera que permitió a las empresas de inteligencia artificial entrenar sus modelos en contenido de pago de los principales medios de comunicación. En Una publicación de blog Publicado hoy, Common Crawl niega rotundamente las acusaciones.
D Sitio web de la fundación Afirma que sus datos se recopilan de páginas web disponibles gratuitamente. Sin embargo, su director ejecutivo Richard Skrenta dijo el atlántico Él cree que los modelos de IA deberían poder acceder a todo lo que hay en Internet. “Los robots también son personas”, dijo Skrenta. el atlántico.
California da luz verde a la seguridad de la IA, la protección de datos y Netflix silencioso
Los chatbots de inteligencia artificial como ChatGPT y Google Gemini han creado una crisis para la industria del periodismo. Los chatbots de IA extraen información de los editores y la comparten directamente con los lectores, alejando los clics y los visitantes de esos editores. Este evento se dice Apocalipsis del tráfico Y Armagedón de la IA. (Divulgación: Jeff Davis, la empresa matriz de Mashable, presentó una demanda contra OpenAI en abril, alegando que violó los derechos de autor de Jeff Davis al entrenar y operar sus sistemas de IA).
Como se dijo el atlántico Según se informa, algunos editores de noticias se han dado cuenta de la actividad de Common Crawl y algunos han agregado una directiva al código de su sitio web para bloquear el raspador de Foundation. Sin embargo, esto sólo protege el contenido futuro, no todo lo que ya haya sido eliminado.
Velocidad de la luz triturable
Varios editores han solicitado que su contenido se elimine del archivo de Common Crawl. La fundación dijo que estaba cumpliendo, aunque lentamente debido al volumen de datos, y una organización compartió varios correos electrónicos del Common Crawl. el atlántico Ese proceso de eliminación se completó “en un 50 por ciento, un 70 por ciento y luego un 80 por ciento”. Sin embargo, Reisner descubrió que ninguna de estas solicitudes de eliminación parece haberse cumplido y los archivos de Common Crawl no se han modificado desde 2016.
Aduana de Skrent el atlántico El formato de archivo utilizado para almacenar los archivos es “inmutable”, lo que significa que el contenido no se puede eliminar una vez agregado. Sin embargo, Reisner informó que la herramienta de búsqueda pública del sitio, la única forma no técnica de explorar los archivos del rastreo general, arrojó resultados confusos para dominios específicos, enmascarando el alcance de lo que se extrajo y archivó.
Mashable se acercó a Common Crawl y un miembro del equipo nos señaló En una publicación de blog pública de Skrenta. En él, Skrenta negó las afirmaciones de que la organización engañó a los editores, diciendo que su rastreador web no elude los muros de pago. También enfatizó que Common Crawl es financieramente independiente y “no está haciendo el trabajo sucio de la IA”.
“el atlántico Common Crawl hace varias afirmaciones falsas y engañosas sobre la Fundación, incluidas acusaciones de que nuestra organización ‘mintió a los editores’ sobre nuestras actividades.’ La publicación del blog también dice: “Nuestro rastreador web, conocido como CCBot, recopila datos de… Páginas web de acceso público. No vamos ‘detrás de los muros de pago’, no iniciamos sesión en ningún sitio web y no utilizamos ningún método diseñado para eludir las restricciones de acceso”.
Sin embargo, como informa Reisner, Common Crawl ha recibido anteriormente subvenciones de OpenAI, Anthropic y otras empresas centradas en la IA. Incluye a NVIDIA como “afiliado”. sitio web. Más allá de recopilar texto sin formato, escribe Reisner, la fundación ayuda a agregar y distribuir conjuntos de datos de entrenamiento de IA, incluso alojándolos para un uso más amplio.
De todos modos, la lucha sobre cómo la industria de la IA utiliza material protegido por derechos de autor no ha terminado. OpenAI, por ejemplo, ha estado en el centro de varias demandas de importantes editores, incluidos Los New York Times y la empresa matriz de Mashable, Ziff Davis.
sujeto
Inteligencia artificial











