El proceso de actualización de modelos de aprendizaje profundo/IA cuando encuentran nuevas tareas o deben adaptarse a cambios en los datos genera costos significativos en términos de recursos computacionales y consumo de energía. Los investigadores han desarrollado un nuevo método que predice estos costos, lo que permite a los usuarios tomar decisiones informadas sobre cuándo actualizar los modelos de IA para mejorar la sostenibilidad de la IA.
“Ha habido estudios que se han centrado en hacer que el entrenamiento de modelos de aprendizaje profundo sea más eficiente”, dice Jung Yoon Kim, autor correspondiente de un artículo sobre el trabajo y profesor asistente de informática en la Universidad Estatal de Carolina del Norte. “Sin embargo, a lo largo del ciclo de vida de un modelo, será necesario actualizarlo muchas veces. Una razón es que, como muestra nuestro trabajo aquí, entrenar un nuevo modelo desde cero en comparación con uno existente. Volver a entrenar el modelo es mucho más eficiente .
“Si queremos abordar los problemas de sostenibilidad relacionados con la IA de aprendizaje profundo, debemos observar los costos computacionales y energéticos durante todo el ciclo de vida de un modelo, incluidos los costos asociados con las actualizaciones. Si no puedes resolverlo sin saber qué los costos se adelantarán, es imposible participar en el tipo de planificación que permita esfuerzos de sostenibilidad que hagan que nuestro trabajo sea especialmente valioso”.
Entrenar un modelo de aprendizaje profundo es un proceso computacional intensivo y los usuarios quieren pasar el mayor tiempo posible sin actualizar la IA. Sin embargo, pueden ocurrir dos tipos de cambios que hagan que estas actualizaciones sean inevitables. En primer lugar, es posible que sea necesario modificar la tarea que está realizando la IA. Por ejemplo, si inicialmente a un modelo se le asignó la tarea de clasificar solo dígitos y señales de tráfico, es posible que deba modificar la tarea para reconocer vehículos y humanos. A esto se le llama cambio de tarea.
En segundo lugar, los datos que alimentan el modelo pueden cambiar. Por ejemplo, es posible que necesite utilizar un nuevo tipo de datos o quizás los datos con los que está trabajando estén codificados de manera diferente. De cualquier manera, la IA debe actualizarse para adaptarse al cambio. A esto se le llama cambio de distribución.
“Independientemente de lo que requiera la actualización, es extremadamente útil para los profesionales de la IA tener una estimación realista de la demanda computacional que requerirá la actualización”, afirma Kim. “Esto puede ayudarles a tomar decisiones informadas sobre si actualizar o no, así como cuánta demanda computacional necesitarán presupuestar para la actualización”.
Para predecir cuáles serán los costos computacionales y energéticos, los investigadores desarrollaron una nueva técnica que llamaron Estimador de cuantificación del cambio de representación (RESQUE).
Básicamente, RESQUE permite a los usuarios comparar el conjunto de datos en el que se entrenó inicialmente un modelo de aprendizaje profundo con el nuevo conjunto de datos que se utilizará para actualizar el modelo. Esta comparación se realiza de manera que se estimen los costos computacionales y energéticos asociados con la actualización.
Estos costos se presentan como un valor de índice único, que se puede comparar con cinco métricas: compromiso, cambio de parámetros, calidad del gradiente, carbono y energía. Las épocas, los cambios de parámetros y la normalización de gradientes son formas de medir la cantidad de esfuerzo computacional necesario para volver a entrenar un modelo.
“Sin embargo, para dar una idea de lo que esto significa en un contexto de sostenibilidad más amplio, también les decimos a los usuarios cuánta energía en kilovatios hora se necesitaría para volver a entrenar el modelo”. “Y predecimos cuánto carbono, en kilogramos, se liberará a la atmósfera para proporcionar esa energía”.
Los investigadores llevaron a cabo extensos experimentos para validar el desempeño de RESQUE, incluidos múltiples conjuntos de datos, muchos cambios de distribución diferentes y muchos cambios de tareas diferentes.
“Descubrimos que las predicciones de RESQUE se correlacionan muy estrechamente con los costos reales de realizar actualizaciones del modelo de aprendizaje profundo”, dice Kim. “Además, como señalé anteriormente, todos nuestros resultados experimentales nos dicen que entrenar un nuevo modelo desde cero requiere mucha más potencia y energía computacional que volver a entrenar un modelo existente”.
A corto plazo, RESQUE es una metodología útil para cualquiera que necesite actualizar un modelo de aprendizaje profundo.
“RESQUE se puede utilizar para ayudar a los usuarios a presupuestar recursos computacionales para las actualizaciones, permitirles estimar cuánto tiempo llevará una actualización, etc.”, dice Kim.
“En términos generales, este trabajo proporciona una comprensión más profunda de los costos asociados con los modelos de aprendizaje profundo a lo largo de su vida, ayudándonos a tomar decisiones informadas sobre la sostenibilidad de los modelos y cómo usarlos. Porque si queremos que la IA sea viable y útiles, estos modelos deben ser no sólo dinámicos sino también sostenibles”.










