Los modelos básicos son modelos de aprendizaje profundo a gran escala que se han entrenado previamente con una gran cantidad de datos no etiquetados de propósito general. Se pueden aplicar a una variedad de tareas, como crear imágenes o responder preguntas de los clientes.
Pero estos modelos, que sirven como columna vertebral de poderosas herramientas de inteligencia artificial como ChatGPT y DALL-E, pueden presentar información inexacta o engañosa. En una situación crítica para la seguridad, como cuando un peatón se acerca a un vehículo autónomo, estos errores pueden tener graves consecuencias.
Para ayudar a prevenir tales errores, investigadores del MIT y del Laboratorio de IA Watson del MIT-IBM desarrollaron una técnica para evaluar la confiabilidad de los modelos básicos antes de aplicarlos a una tarea particular.
Lo hacen considerando un conjunto de modelos de cimentación que son ligeramente diferentes entre sí. Luego utilizan su algoritmo para evaluar la coherencia de las representaciones que cada modelo aprende sobre un único punto de datos de prueba. Si las representaciones son consistentes, significa que el modelo es confiable.
Cuando compararon su técnica con los métodos de referencia más modernos, descubrieron que capturaban mejor la confiabilidad de los modelos básicos en una variedad de tareas de clasificación posteriores.
Se puede utilizar esta técnica para decidir si un modelo debe aplicarse en un entorno particular, sin la necesidad de probarlo en un conjunto de datos del mundo real. Esto puede resultar especialmente útil cuando no se puede acceder a los conjuntos de datos debido a cuestiones de privacidad, como en entornos sanitarios. Además, la técnica se puede utilizar para clasificar modelos según puntuaciones de confiabilidad, lo que permite al usuario seleccionar el mejor para su tarea.
“Todos los modelos pueden estar equivocados, pero los modelos que saben cuándo están equivocados son más útiles. El problema de cuantificar la incertidumbre o la confiabilidad es más difícil para estos modelos fundamentales porque sus representaciones abstractas son comparables. Nuestro método permite decir qué tan confiable una muestra es para cualquier dato de entrada”, dijo el autor principal Naveed Azizan, profesor asistente del Departamento de Ingeniería Mecánica del MIT y miembro de Tut for Data, Systems and Society (IDSS). Laboratorio de Sistemas de Información y Decisión (LIDS).
Lo acompaña el estudiante graduado de LIDS, Young Jin Park, en un artículo sobre el trabajo del autor principal. Hao Wang, científico investigador del Laboratorio de IA Watson del MIT-IBM; y Shirin Ardashir, científica investigadora senior de Netflix. Este artículo se presentará en la Conferencia sobre Incertidumbre en Inteligencia Artificial.
Medición del consenso
Los modelos tradicionales de aprendizaje automático están entrenados para realizar una tarea específica. Estos modelos suelen hacer predicciones concretas basadas en la entrada. Por ejemplo, el modelo puede indicarle si una imagen en particular contiene un gato o un perro. En este caso, evaluar la confiabilidad puede ser una cuestión de observar la predicción final para ver si el modelo es correcto.
Pero los modelos de fundaciones son diferentes. El modelo está preentrenado utilizando datos genéricos, en un entorno donde sus creadores no conocen todas las tareas a las que se aplicará. Después de una formación previa, los usuarios lo adaptan a sus tareas específicas.
A diferencia de los modelos tradicionales de aprendizaje automático, los modelos fundamentales no producen resultados concretos como etiquetas de “gato” o “perro”. En cambio, crean una representación abstracta basada en el punto de datos de entrada.
Para evaluar la confiabilidad del modelo básico, los investigadores utilizaron un método de conjunto entrenando múltiples modelos que comparten muchas características pero que difieren ligeramente entre sí.
“Nuestra idea es medir el consenso. Si todos esos modelos fundamentales representan consistentemente cualquier dato en nuestro conjunto de datos, entonces podemos decir que el modelo es confiable”.
Pero se toparon con un problema: ¿cómo podían comparar representaciones abstractas?
“Estos modelos sólo generan un vector que contiene algunos números, por lo que no podemos compararlos fácilmente”, añade.
Resolvieron este problema utilizando una idea llamada coherencia vecinal.
Para su enfoque, los investigadores desarrollan un conjunto de puntos de referencia confiables para verificar el conjunto del modelo. Luego, para cada modelo, investigan puntos de referencia ubicados cerca de la representación del punto de prueba de ese modelo.
Al observar la consistencia de los puntos vecinos, pueden evaluar la confiabilidad de los modelos.
Alinear representaciones
Los modelos básicos crean un mapa de puntos de datos llamado espacio de representación. Una forma de pensar en este espacio es como una esfera. Cada modelo asigna puntos de datos similares a la misma parte de su círculo, por lo que las imágenes de gatos van en un lugar y las imágenes de perros en otro.
Pero cada modelo mapeará los animales de manera diferente en su propia esfera, de modo que mientras los gatos pueden agruparse cerca del polo sur de un hemisferio, otro modelo puede mapear gatos en algún lugar del hemisferio norte.
Los investigadores utilizan puntos vecinos como anclas para alinear estos círculos y poder comparar las representaciones. Si los vecinos de un punto de datos son consistentes en múltiples representaciones, uno debe tener confianza en la confiabilidad del resultado del modelo para ese punto.
Cuando probaron este enfoque en una amplia gama de tareas de clasificación, descubrieron que era más consistente que la línea de base. Además, no se vio afectado por los desafiantes puntos de prueba que provocaron que otros métodos fallaran.
Además, su enfoque se puede utilizar para estimar la confiabilidad de cualquier dato de entrada, de modo que se pueda estimar qué tan bien funciona un modelo para un tipo particular de individuo, como un paciente con ciertas características.
“Incluso si el rendimiento general de todos los modelos es promedio, desde una perspectiva individual, preferirías el que funcione mejor para ese individuo”, dice Wang.
Sin embargo, una limitación proviene del hecho de que deben entrenar un par de modelos básicos, lo cual es computacionalmente costoso. En el futuro, planean encontrar formas más eficientes de construir múltiples modelos, tal vez utilizando problemas más pequeños del mismo modelo.
Este trabajo está financiado, en parte, por MIT-IBM Watson AI Lab, MathWorks y Amazon.