Debido a que los modelos de aprendizaje automático pueden hacer predicciones incorrectas, los investigadores a menudo los equipan con la capacidad de decir qué tan seguros están de una decisión en particular. Esto es especialmente importante en entornos en los que hay mucho en juego, como cuando se utilizan modelos para ayudar a identificar enfermedades en imágenes médicas o filtrar solicitudes de empleo.
Pero cuantificar la incertidumbre de un modelo sólo es útil si es preciso. Si un modelo dice que tiene un 49% de confianza en que una imagen clínica muestra derrame pleural, entonces el 49% de las veces el modelo debe ser correcto.
Los investigadores del MIT han introducido un nuevo método que puede mejorar la estimación de la incertidumbre en los modelos de aprendizaje automático. Su método no sólo produce estimaciones de incertidumbre más precisas que otras técnicas, sino que lo hace de manera más eficiente.
Además, debido a que la técnica es escalable, se puede aplicar a grandes modelos de aprendizaje profundo que se implementan cada vez más en atención médica y otras situaciones críticas para la seguridad.
Esta técnica puede brindar a los usuarios finales, muchos de los cuales carecen de habilidades de aprendizaje automático, mejor información que pueden usar para decidir si confiar en las predicciones de un modelo o implementar el modelo para una tarea particular.
“Es fácil ver que estos modelos funcionan muy bien en escenarios en los que son muy buenos, y luego asumir que serán igual de buenos en otros escenarios. Eso hace que este tipo de trabajo sea muy especial. “Es importante intentarlo”. “Es necesario calibrar mejor la incertidumbre de estos modelos para garantizar que sean consistentes con las percepciones humanas de la incertidumbre”, dice un estudiante graduado de la Universidad de Toronto. Knowledge, dice el autor principal Nathan Ng, estudiante visitante en el MIT.
Ng fue coautor del artículo con Roger Gross, profesor asistente de informática en la Universidad de Toronto. y el autor principal Marzih Qasmi, profesor asociado del Departamento de Ingeniería Eléctrica e Informática y miembro del Instituto de Ciencias de la Ingeniería Médica y del Laboratorio de Sistemas de Información y Decisión. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Evaluación de la incertidumbre
Los métodos de cuantificación de la incertidumbre a menudo requieren cálculos estadísticos complejos que no son compatibles con modelos de aprendizaje automático con millones de parámetros. Estos métodos también requieren que los usuarios hagan suposiciones sobre el modelo y los datos utilizados para entrenarlo.
Los investigadores del MIT adoptaron un enfoque diferente. Utilizan lo que se conoce como regla de longitud mínima de explicación (MDL), que no requiere suposiciones que puedan impedir la validez de otros métodos. El MDL se utiliza para cuantificar y cuantificar mejor la incertidumbre de los puntos de prueba que se le pide al modelo que etiquete.
La técnica que desarrollaron los investigadores, conocida como IF-COMP, hace que MDL sea lo suficientemente rápido como para usarse con grandes modelos de aprendizaje profundo implementados en muchos entornos del mundo real.
MDL implica considerar todas las etiquetas posibles que puede dar un punto de prueba modelo. Si hay muchas etiquetas alternativas para un punto que encajan bien, entonces su confianza en la etiqueta elegida debería disminuir en consecuencia.
“Una forma de entender qué tan seguro es un modelo es darle información contradictoria y ver qué probabilidades hay de que te crea”, dice Ng.
Por ejemplo, consideremos un modelo que establece que el cuadro clínico muestra derrame pleural. Si los investigadores le dicen al modelo que la imagen representa una anomalía y está dispuesto a actualizar su creencia, el modelo debería tener menos confianza en su juicio original.
Con MDL, si un modelo tiene confianza cuando etiqueta un punto de datos, debe usar un código muy corto para describir ese punto. Si no está seguro de su decisión porque el punto puede tener muchas otras etiquetas, utiliza un código largo para derivar esas posibilidades.
La cantidad de código utilizada para etiquetar un punto de datos se denomina complejidad de datos estocásticos. Si los investigadores preguntan al modelo qué tan dispuesto está a actualizar su creencia sobre un dato dada la evidencia contraria, la complejidad de los datos estocásticos debería reducirse si el modelo tiene confianza.
Pero probar cada punto de datos usando MDL requeriría muchos cálculos.
Acelera el proceso
Con IF-COMP, los investigadores han desarrollado una técnica de estimación que puede estimar con precisión la complejidad de los datos estocásticos utilizando una función especial, llamada función de influencia. También utilizaron una técnica estadística llamada escala de temperatura, que mejora la calibración de los resultados del modelo. Esta combinación de funciones de influencia y mediciones de temperatura permite estimaciones de alta calidad de la complejidad de los datos estocásticos.
Finalmente, IF-COMP puede producir efectivamente cuantificaciones de incertidumbre bien calibradas que reflejen la verdadera confianza del modelo. La técnica también puede determinar si el modelo ha etiquetado mal algunos puntos de datos o revelar qué puntos de datos son valores atípicos.
Los investigadores probaron su sistema en estas tres tareas y descubrieron que era más rápido y preciso que otros métodos.
“Es realmente importante estar seguro de que un modelo está bien calibrado, y existe una necesidad cada vez mayor de detectar cuando una predicción particular no parece del todo correcta. Las herramientas de auditoría en los problemas de aprendizaje automático son cada vez más necesarias a medida que utilizamos grandes cantidades de datos no probados para construir modelos que se aplicarán a los problemas que enfrentan los humanos.
IF-COMP es independiente del modelo, por lo que puede proporcionar una cuantificación precisa de la incertidumbre para muchos tipos de modelos de aprendizaje automático. Esto permite implementarlo en una gama más amplia de entornos del mundo real, lo que en última instancia ayuda a más profesionales a tomar mejores decisiones.
“La gente necesita entender que estos sistemas son muy falibles y que pueden inventar cosas sobre la marcha. Un modelo puede parecer muy seguro, pero hay muchas cosas diferentes que demuestran lo contrario. Pero está dispuesto a hacerlo. creer”, dice Ng.
En el futuro, los investigadores están interesados en aplicar su enfoque a modelos de lenguaje más amplios y estudiar otros posibles casos de uso del principio de longitud mínima de descripción.