El texto generado por máquinas ha estado engañando a los humanos durante los últimos cuatro años. Desde el lanzamiento de GPT-2 en 2019, las herramientas de modelos de lenguaje grande (LLM) han mejorado progresivamente en la generación de historias, artículos de noticias, ensayos de estudiantes y más, incluso cuando los humanos a menudo no pueden reconocerlos cuando los leen. texto preparado. Algoritmos Si bien estos LLM se utilizan para ahorrar tiempo e incluso aumentar la creatividad en la ideación y la escritura, su poder puede usarse indebidamente y conducir a resultados dañinos, que ya aparecen donde usamos la información. No detectar el texto generado por máquina sólo aumenta el potencial de daño.
Una forma en la que tanto académicos como empresas están intentando mejorar esta detección es mediante el uso de las propias máquinas. Los modelos de aprendizaje automático pueden identificar patrones sutiles de elección de palabras y estructura gramatical para reconocer el texto generado por LLM de una manera que nuestra intuición humana no puede.
Hoy en día, muchos detectores comerciales afirman tener un gran éxito en la detección de texto generado por máquinas, con hasta un 99% de precisión, pero ¿son estas afirmaciones demasiado buenas para ser verdad? Eso es lo que el profesor de informática y ciencias de la información Chris Callison-Birch y Liam Duggan, estudiante de doctorado del grupo de Callison-Birch, pretendían descubrir en su reciente artículo publicado en la 62ª Reunión Anual de la Asociación de Lingüística Computacional.
Liam Duggan presenta RAID en la 62ª Reunión Anual de la Asociación de Lingüística Computacional en Bangkok.
“A medida que avanza la tecnología para detectar texto generado por máquinas, también lo hace la tecnología utilizada para evadir los detectores”, dice Callison Birch. “Esta es una carrera armamentista, y si bien debemos esforzarnos por lograr el objetivo de desarrollar detectores robustos, los detectores disponibles ahora tienen muchas limitaciones y debilidades”.
Para investigar estas limitaciones y proporcionar un camino a seguir para desarrollar detectores robustos, el equipo de investigación creó el Robust AI Detector (RAID), un conjunto de datos de más de 10 millones de documentos que contienen recetas, noticias, artículos, publicaciones de blogs y más, incluidos AI- texto generado. y texto generado por humanos. RAID sirve como el primer punto de referencia estándar para probar la capacidad de detección de los detectores actuales y futuros. Además de crear el conjunto de datos, crearon una tabla de clasificación que clasifica públicamente el rendimiento de todos los detectores que han sido evaluados mediante RAID de manera imparcial.
“El concepto de tabla de clasificación ha sido clave para el éxito en muchos aspectos del aprendizaje automático, como la visión por computadora”, afirma Duggan. “RAID Benchmark es la primera tabla de clasificación para la detección robusta de texto generada por IA. Esperamos que nuestra tabla de clasificación fomente la transparencia y la investigación de alta calidad en este campo en rápida evolución”.
Duggan ya ha visto el impacto del artículo entre las empresas que fabrican los detectores.
“Poco después de que nuestro artículo estuvo disponible como preimpresión y publicamos el conjunto de datos RAID, comenzamos a ver que el conjunto de datos se descargaba varias veces y nos contactó una empresa llamada Originality.ai, que desarrolla detectores de texto generado por IA”, dijo. dice. “Compartieron nuestro trabajo en una publicación de blog, clasificaron su detector en nuestra tabla de clasificación y están utilizando RAID para mejorar la capacidad de la herramienta para identificar y detectar vulnerabilidades previamente ocultas. Es inspirador ver que la comunidad aprecia este trabajo y se esfuerza por elevar el nivel de la IA. -tecnología de detección.”
Entonces, ¿funcionan los detectores actuales en la mano? RAID muestra que muchos no hacen lo que dicen.
“Los detectores entrenados en ChatGPT fueron en gran medida inútiles para detectar salidas de texto generadas por máquinas en comparación con otros LLM como Llama y viceversa”, dice Callison-Burch. “Los detectores entrenados en noticias no se detienen a la hora de evaluar contenido generado por máquinas o escritura creativa. Lo que encontramos es que hay muchos detectores que sólo funcionan bien cuando se usan aplicados a casos particulares y cuando examinan el texto en el que fueron entrenados. “.
Los detectores pueden detectar texto generado por IA cuando no está modificado o “disfrazado”, pero cuando se manipulan, los detectores actuales pueden detectar de manera confiable el texto generado por IA.
Los detectores defectuosos no solo son un problema porque no funcionan bien, sino que pueden ser tan peligrosos como la herramienta de inteligencia artificial utilizada para generar el texto en primer lugar.
“Si las universidades o escuelas dependieran de un detector estrechamente capacitado para detectar a los estudiantes que usan ChatGPT para escribir tareas, podrían acusar falsamente a los estudiantes de hacer trampa cuando lo hacen”, dice Callison Birch. No lo hacen”, dice Callison Birch. “También pueden recordar a los estudiantes que hicieron trampa al utilizar otros LLM para preparar sus tareas”.
No es sólo el entrenamiento de un detector, o la falta del mismo, lo que limita su capacidad para detectar texto generado por máquina. El equipo examinó cómo los ataques adversarios, como reemplazar letras con símbolos similares, pueden descarrilar fácilmente un detector y permitir que el texto generado por una máquina pase desapercibido.
“Esto sugiere que un usuario puede realizar una variedad de ajustes para evitar la detección por parte de los detectores que evaluamos en este estudio”, dice Duggan. “Algo tan simple como insertar espacios adicionales, sustituir letras por símbolos o usar ortografías alternativas o sinónimos para algunas palabras puede inutilizar el detector”.
Reemplazar ciertos caracteres con símbolos de apariencia similar es un tipo de ataque adversario que desvía a los detectores existentes.
El estudio concluye que, aunque los detectores actuales aún no son lo suficientemente robustos como para ser de uso significativo en la sociedad, la evaluación abierta de los detectores en recursos grandes, diversos y compartidos es fundamental para acelerar el progreso y la confianza en la detección, y que la transparencia conducirá a ello. progreso. de detectores de captura en una variedad de casos de uso.
“Evaluar la solidez es particularmente importante para la detección, y su importancia sólo aumenta a medida que aumenta la escala del despliegue público”, dice Duggan. “También debemos recordar que la detección es sólo una herramienta para una motivación mayor e incluso más valiosa: prevenir el daño causado por la distribución masiva de texto generado por IA”.
“Mi trabajo se centra en reducir los daños que los LLM pueden crear inadvertidamente y, como mínimo, concienciar a las personas de los daños para que puedan estar mejor informadas al interactuar con la información”, continúan. “En el ámbito de la distribución y el consumo de información, comprender dónde y cómo se produce el texto será cada vez más importante, y este artículo es sólo una forma en que puedo abordar estas lagunas tanto en la comunidad científica como en la pública. Trabajando para”.