Home Smartwatch El estudio muestra que los modelos de lenguaje de visión no pueden...

El estudio muestra que los modelos de lenguaje de visión no pueden manejar preguntas con palabras de náuseas

6

Imagine un radiólogo que un nuevo paciente está examinando la rayos x. Ella señala que la paciente tiene hinchazón en el tejido, pero su corazón no aumenta. Buscando acelerar el diagnóstico, puede usar informes de pacientes similares para usar Vision Vision Vision Language Language Model Learning.

Pero si el modelo indica erróneamente informes con ambos términos, el diagnóstico puede ser bastante diferente: si un paciente tiene hinchazón y extensión del tejido, es muy probable que esté relacionado con el cardíaco, pero puede haber varias causas principales debido a un corazón cardíaco.

En una nueva investigación, los investigadores del MIT han descubierto que es muy probable que los modelos de lenguaje de visión cometan tal error en situaciones del mundo real porque no entienden las palabras negativas: “no” y “no” como “no” que son falsas o ausentes.

“Las palabras de estos negativos pueden tener un efecto muy importante, y si estamos usando estos modelos solo con ojos, podemos sufrir consecuencias destructivas”, dice Kamel Sahud, un estudiante graduado del MIT.

Los investigadores experimentaron la capacidad de los modelos de lenguaje de visión para identificar lo negativo en los títulos de imágenes. Los modelos a menudo funcionan y al mismo tiempo aleatorio. Al ver estos resultados, el equipo desarrolló un DataState de fotos con títulos similares, que incluyen las palabras de los elementos faltantes.

Muestran que el re -entrenamiento del lenguaje de visión con este DataState mejora el rendimiento cuando se le pide a un modelo que recupere imágenes que no contengan algunos elementos. También mejora la precisión en la cuestión de una serie de selección, que se responde con la leyenda negativa.

Pero los investigadores han advertido que se necesita más trabajo para abordar las razones principales del problema. Esperan que su investigación informe a los usuarios potenciales de deshacerse de la atención anterior, lo que puede tener serias implicaciones en entornos de alta estaca donde se utilizan actualmente estos modelos, lo que determina qué pacientes reciben algún tratamiento de productos en las plantas de fabricación.

“Esta es una disertación técnica, pero hay problemas importantes a considerar. Si lo básico se rompe como negativo, ya no deberíamos usar un modelo de visión/lenguaje grande de muchas maneras para usarlos, sin ningún diagnóstico profundo”, la autora senior Marzia Ghasimi, un departamento de ingeniería eléctrica e ingeniería eléctrica. Miembro del Instituto del Instituto.

El estudiante graduado del MIT ha sido incluido en papel, Ghasmi y Alhamud. Yong Long Tian de Openi; Ex postal Postal en la Universidad de Oxford, Guwaha. Philip HS Tour, profesor de Oxford; Y Yun Kim, profesor asistente de EEC y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL) en el MIT. Esta investigación se presentará en una conferencia sobre visión por computadora e identificación de patrones.

Ignorar lo negativo

El modelo de lenguaje Vision (VLM) se capacita utilizando un gran depósito de imágenes y títulos similares, que aprenden a codificar como un conjunto de números, llamado representación vectorial. Los modelos usan estos vectores para distinguir diferentes imágenes.

Un VLM usa dos codificadores separados, uno para un texto y otro para una imagen, y los codificadores aprenden cómo generar vectores similares de una imagen y su mismo título de texto.

Ghasimi dice: “Exprese lo que hay en las imágenes con los títulos: son una etiqueta positiva. Y de hecho, este es todo el problema. Nadie mira la imagen de saltar sobre la cerca del perro y decir que está saltando sobre la cerca, que no tiene helicóptero”.

Dado que los subtítulos de imagen no contienen ejemplos negativos, VLM nunca aprende a identificarlo.

Para profundizar este problema, los investigadores diseñaron dos trabajos de referencia que examinan la capacidad de VLMS para comprender lo negativo.

El anterior, utilizaron un modelo de lenguaje grande (LLM) para reorganizar fotos en el conjunto de datos existente para escribirlas en el título y escribirlas en el título. Luego revisaron los modelos a través de bienes para recuperar estas imágenes, que incluían ciertos artículos, pero no otros.

Otro trabajo, han creado numerosas preguntas electorales que solicitan un título muy apropiado de la lista de opciones relacionadas con el VLM. Estos títulos son diferentes al agregar una referencia a algo que no se manifiesta en la imagen o niega un elemento que aparezca en la imagen.

Los modelos a menudo no lograron hacer ambas tareas, con subtítulos negativos en la recuperación de la imagen disminuye en aproximadamente un 25 %. Cuando se trata de responder múltiples preguntas de selección, los mejores modelos lograron solo un 39 % de precisión, en la que muchos modelos se desempeñan en una ocasión aleatoria o incluso menos.

Una de las razones de esta falla es un sesgo de verificación de los investigadores atajos: VLMS ignora las palabras de lo negativo y en su lugar se centra en los elementos en las imágenes.

“Esto no es solo para palabras como ‘no’ y ‘no’. Independientemente de cómo exprese cómo expresa negativo o exclusión, los modelos lo ignorarán fácilmente.

Era permanente en cada VLM que experimentó.

“Un problema de solución”

Dado que VLMS generalmente no está entrenado en títulos de imágenes, los investigadores desarrollaron datos con palabras negativas como el primer paso para resolver el problema.

Utilizando un conjunto de datos con 10 millones de textos de texto de imagen, indicó que LLM sugirió subtítulos relacionados que explicen lo que se excluye de las imágenes, que proporciona nuevos títulos con palabras negativas.

Tenían que ser particularmente cautelosos de que estos títulos artificiales aún se lean naturalmente, o cuando enfrentan títulos más complejos escritos por humanos, falla VLM en el mundo real.

Descubrió que eliminar los VLM con su conjunto de datos resultó en el beneficio de todo el rendimiento de la junta. Mejoró las capacidades de recuperación de fotos de los modelos en aproximadamente un 10 %, al tiempo que aumenta el rendimiento de múltiples preguntas de selección en aproximadamente un 30 %.

“Pero nuestra solución no es perfecta. Estamos reiniciando las datos, que es una forma de promoción de datos. Ni siquiera hemos tocado cómo funcionan estos modelos, pero esperamos que esto sea un signo de una solución y otros puedan mejorarlo con nuestra solución”.

Al mismo tiempo, espera que su trabajo aliente a más consumidores a pensar en el problema que desean usar VLM para resolver y diseñar algunos ejemplos antes de la implementación.

En el futuro, los investigadores pueden expandir el trabajo enseñando a VLMS una acción separada sobre texto y fotos, lo que puede mejorar su capacidad para comprender su negativo. Además, pueden producir datos adicionales que pueden incluir pares de subtítulos de fotos para aplicaciones específicas, como la atención médica.

Source link