Home Smartwatch El nuevo modelo de IA TabPFN permite predicciones más rápidas y precisas...

El nuevo modelo de IA TabPFN permite predicciones más rápidas y precisas en pequeños conjuntos de datos tabulares.

124

Llenar lagunas en conjuntos de datos o identificar valores atípicos: este es el dominio del algoritmo de aprendizaje automático TabPFN, desarrollado por un equipo dirigido por el Prof. Dr. Frank Hutter de la Universidad de Friburgo. Esta inteligencia artificial (IA) utiliza métodos de aprendizaje inspirados en grandes modelos de lenguaje. TabPFN aprende relaciones causales a partir de datos simulados y, por lo tanto, es más probable que haga predicciones precisas que los algoritmos estándar utilizados hasta ahora. Los resultados fueron publicados en la revista. la naturaleza. Además de la Universidad de Friburgo, participaron el Centro Médico Universitario de Friburgo, Charité – Medicina Universitaria de Berlín, la startup Prior Labs de Friburgo y el Instituto ELLIS de Tübingen.

Los conjuntos de datos, ya sea sobre los efectos de ciertas drogas o sobre las trayectorias de las partículas en los aceleradores del CERN, rara vez están completos o libres de errores. Por lo tanto, una parte importante del análisis de datos científicos es identificar valores atípicos o predecir estimaciones significativas de los valores faltantes. Los algoritmos existentes, como XGBoost, funcionan bien con grandes conjuntos de datos, pero a menudo no son fiables con volúmenes de datos pequeños.

Con el modelo TabPFN, Hutter y su equipo resuelven este problema entrenando el algoritmo en conjuntos de datos generados artificialmente que se modelan en escenarios reales. Para ello, los científicos crean tablas de datos en las que las entradas de las columnas individuales de la tabla están vinculadas causalmente. TabPFN se entrenó con 100 millones de conjuntos de datos simulados. Este entrenamiento enseña al modelo a evaluar diferentes relaciones causales posibles y utilizarlas para hacer sus predicciones.

El modelo supera a otros algoritmos, especialmente para tablas pequeñas con menos de 10.000 filas, muchos valores atípicos o una gran cantidad de valores faltantes. Por ejemplo, TabPFN requiere solo el 50% de los datos para lograr la misma precisión que el mejor modelo anterior. Además, TabPFN es más eficiente que los algoritmos anteriores en el manejo de nuevos tipos de datos. En lugar de iniciar un nuevo proceso de aprendizaje para cada conjunto de datos, el modelo se puede adaptar a conjuntos de datos similares. Este proceso es similar a la adaptación de modelos de lenguaje con pesos abiertos como Lamma desarrollado por Meta. El modelo también permite obtener densidad de probabilidad de un conjunto de datos y generar nuevos datos con propiedades similares.

“La capacidad de utilizar TabPFN para calcular predicciones de forma fiable y rápida a partir de datos tabulares es beneficiosa para muchos campos, desde la biomedicina hasta la economía y la física”, afirma Hutter. “TabPFN ofrece mejores resultados más rápidamente y, como requiere menos recursos y datos, es ideal para empresas y equipos más pequeños”. El código y las instrucciones sobre cómo usarlo se pueden encontrar aquí. En la siguiente fase, los investigadores seguirán desarrollando la IA para que pueda hacer las mejores predicciones posibles incluso con grandes conjuntos de datos.

Source link