La gente utiliza grandes modelos de lenguaje para una amplia gama de tareas, desde traducir un artículo hasta identificar fraude financiero. Sin embargo, a pesar de las increíbles capacidades y versatilidad de estos modelos, a veces producen respuestas incorrectas.
Además de este problema, los modelos pueden tener exceso de confianza en las respuestas incorrectas o falta de confianza en las respuestas correctas, lo que dificulta que el usuario sepa cuándo confiar en el modelo.
Los investigadores suelen calibrar un modelo de aprendizaje automático para garantizar que su nivel de confianza sea coherente con su precisión. Un modelo bien calibrado debería tener menos confianza en las predicciones falsas, y viceversa. Pero debido a que los modelos de lenguajes grandes (LLM) se pueden aplicar a un conjunto aparentemente interminable de tareas diversas, los métodos de calibración tradicionales son ineficaces.
Ahora, investigadores del MIT y del MIT-IBM Watson AI Lab han introducido un método de calibración basado en grandes modelos de lenguaje. Su método, llamado termómetro, implica construir un pequeño modelo auxiliar que se monta encima de un modelo de lengua más grande para calibrarlo.
El termómetro es más eficiente que otros métodos (requiere un cálculo que consume menos energía) al tiempo que preserva la precisión del modelo y le permite generar respuestas mejor calibradas a las tareas que realiza.
Al permitir una calibración eficiente del LLM para diversas tareas, Thermometer puede ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones incorrectas, lo que en última instancia les permite adaptar el modelo a tales situaciones. Previene la implementación donde podría fallar.
“Con el termómetro, queremos proporcionar una señal clara al usuario para decirle si la respuesta del modelo es correcta o incorrecta, de una manera que refleje la incertidumbre del modelo, para que pueda saber si el modelo es confiable”, dice Maohao. Shen. Estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS) y autor principal de un artículo sobre termómetros.
A Shane se une en el artículo Gregory Vernal, profesor de ingeniería de Sumitomo que dirige el Laboratorio de Señales, Información y Algoritmos en el Laboratorio de Investigación de Electrónica, y miembro del Laboratorio de IA Watson del MIT-IBM. La autora principal Soumya Ghosh, miembro del personal de investigación del Laboratorio de IA Watson del MIT-IBM; así como otros en el MIT y el MIT-IBM Watson AI Lab. La investigación se presentó recientemente en la Conferencia Internacional sobre Aprendizaje Automático.
Calibración universal
Debido a que los modelos tradicionales de aprendizaje automático generalmente se crean para realizar una sola tarea, calibrarlos generalmente implica un enfoque específico para la tarea. Por otro lado, dado que los LLM tienen la flexibilidad de realizar muchas tareas, utilizar un método tradicional para calibrar el modelo para una tarea puede comprometer su desempeño en otra tarea.
Calibrar un LLM a menudo implica muestrear el modelo varias veces para obtener diferentes predicciones y luego combinar esas predicciones para obtener una mejor confianza calibrada. Sin embargo, dado que estos modelos tienen miles de millones de parámetros, los costos computacionales de dichos métodos crecen exponencialmente.
“En cierto sentido, los modelos de lenguaje grandes son universales porque pueden manejar diferentes tareas. Por lo tanto, necesitamos un método de calibración universal que también pueda manejar muchas tareas diferentes”, dice Shen.
Con el termómetro, los investigadores desarrollaron una técnica versátil que aprovecha un método de calibración clásico llamado medición de temperatura para calibrar eficazmente el LLM para una nueva tarea.
En este contexto, una “temperatura” es un parámetro de escala que se utiliza para conciliar la confianza de un modelo con su precisión predictiva. Tradicionalmente, se determina la temperatura correcta utilizando un conjunto de datos de validación de instancias etiquetadas específicas para la tarea.
Debido a que los LLM a menudo se aplican a tareas novedosas, obtener conjuntos de datos etiquetados puede resultar casi imposible. Por ejemplo, un usuario que desea implementar LLM para responder las preguntas de los clientes sobre un nuevo producto no tiene un conjunto de datos que contenga dichas preguntas y respuestas.
En lugar de utilizar un conjunto de datos etiquetados, los investigadores entrenan un modelo auxiliar que se ejecuta sobre el LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.
Utilizan conjuntos de datos etiquetados de algunas tareas representativas para entrenar el modelo de termómetro, pero luego, una vez entrenado, se generaliza a nuevas tareas del mismo tipo sin la necesidad de datos etiquetados adicionales.
Un modelo de termómetro entrenado en un conjunto de datos de preguntas de opción múltiple, que quizás incluyan preguntas de álgebra y una pregunta médica, se puede utilizar para calibrar un LLM que responda preguntas sobre geometría o biología, por ejemplo.
“El objetivo al que se aspira es que funcione en cualquier cosa, pero todavía no hemos llegado a ese punto”, dice Ghosh.
El modelo de termómetro solo necesita acceder a una pequeña parte del funcionamiento interno de LLM para predecir la temperatura correcta que calibrará sus predicciones para los puntos de datos de una tarea específica.
Un método eficiente
Es importante destacar que la técnica no requiere múltiples ejecuciones de entrenamiento y solo ralentiza ligeramente el LLM. Además, dado que las mediciones de temperatura no cambian las predicciones de un modelo, el termómetro conserva su precisión.
Cuando compararon el termómetro con múltiples líneas de base en múltiples tareas, produjo incertidumbres calibradas consistentemente mejor y requirió menos cálculos.
“Siempre que entrenemos el modelo de termómetro en un número suficientemente grande de tareas, debería poder generalizarse bien a cualquier tarea nueva, al igual que un modelo de lenguaje grande, también es un modelo universal”, añade Shane.
Los investigadores también descubrieron que si entrenaban un modelo de termómetro para LLM pequeños, podría aplicarse directamente para calibrar LLM más grandes dentro de la misma familia.
En el futuro, quieren adaptar el termómetro a tareas de generación de texto más complejas y aplicar la técnica a LLM aún más grandes. Los investigadores también esperan que sea necesario entrenar el modelo de termómetro para corregir la diversidad y la cantidad de conjuntos de datos etiquetados para que pueda generalizarse a una nueva tarea.
Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab.