Home Apple La IA entrenada por Apple subtitula imágenes 10 veces mejor que el...

La IA entrenada por Apple subtitula imágenes 10 veces mejor que el modelo

21

Los investigadores de Apple han desarrollado una nueva forma de entrenar un modelo de IA para subtítulos de imágenes que proporciona descripciones más precisas y detalladas cuando se utilizan modelos mucho más pequeños. Aquí están los detalles.

El nuevo modelo podría acelerar el entrenamiento de IA multimodal en el futuro

Un nuevo estudio titulado RubiCap: aprendizaje reforzado guiado por rúbricas para subtítulos de imágenes densosUn equipo de investigadores de Apple colaboró ​​con la Universidad de Wisconsin-Madison para desarrollar un nuevo marco para un modelo de subtítulos de imágenes densos, generando resultados de última generación en múltiples puntos de referencia.

Los subtítulos de imágenes densos crean una descripción detallada a nivel regional de todo lo que sucede dentro de una imagen, en lugar de un único resumen general.

En otras palabras, identifica múltiples elementos y regiones de una imagen y los describe con gran detalle, lo que resulta en una comprensión más rica de la escena que una descripción general.

A continuación se muestran algunos ejemplos del artículo de subtítulos densos original de Stanford, Denscap: una red de localización totalmente transformadora para subtítulos densos:

Figura: DENSCAP: Red de localización totalmente convolucional para subtítulos densos

Los subtítulos de imágenes densos se pueden utilizar para diversas tareas, como entrenar modelos de visión-lenguaje y de texto a imagen. Cuando se aplica a funciones orientadas al usuario, puede mejorar la búsqueda de imágenes e incluso las herramientas de accesibilidad.

Según los investigadores, el problema es que los métodos actuales basados ​​en IA para entrenar modelos de subtítulos de imágenes densas se quedan cortos de manera significativa:

Los subtítulos de imágenes densos son importantes para la alineación entre modelos en el preentrenamiento del lenguaje visual y la generación de texto a imagen, pero producir anotaciones de calidad experta es prohibitivamente costoso. Aunque los subtítulos sintéticos a través de modelos de lenguaje visual (VLM) robustos son una opción práctica, la destilación supervisada a menudo produce una diversidad de resultados limitada y una generalización deficiente. El aprendizaje por refuerzo (RL) puede superar estas limitaciones, pero hasta ahora sus éxitos se han concentrado en dominios verificables que dependen de fichas deterministas, un lujo que no está disponible en los subtítulos abiertos.

Teniendo esto en cuenta, propusieron un nuevo marco para abordar estas limitaciones, que adoptó un enfoque interesante.

Tomaron muestras aleatorias de 50.000 imágenes de dos conjuntos de datos de entrenamiento, PixMoCap y DenseFusion-4V-100K.

Para cada imagen, el sistema generó varias opciones de subtítulos utilizando un conjunto de modelos de lenguaje de visión existentes, incluidos Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT y Qwen3-VL-30B-A3B-Instruct.

Al mismo tiempo, el modelo entrenado con RubiCap generó su propio título para esa imagen.

Luego, RubiCap Gemini 2.5 Pro utilizó:

  1. Analizar el título candidato y el resultado propio del modelo, así como la imagen;
  2. identificar en qué coinciden los modelos y qué se omite o se tergiversa;
  3. Deje claros los criterios para juzgar los subtítulos.

A continuación, Qwen2.5-7B-Instruct actuó como juez, calificando los subtítulos según cada criterio para generar las señales de recompensa utilizadas para el entrenamiento.

Como resultado, el modelo recibió comentarios más específicos y estructurados sobre qué corregir, lo que generó subtítulos más precisos en lugar de depender de una única respuesta “correcta”.

Foto de : Apple

Cuando todo estuvo dicho y hecho, los investigadores produjeron tres modelos: RubiCap-2B, RubiCap-3B y RubiCap-7B, con 2 mil millones, 3 mil millones y 7 mil millones de parámetros, respectivamente.

Y en comparación con los métodos actuales, obtuvieron resultados sorprendentemente buenos, superando a los modelos con 72 mil millones de parámetros.

De la investigación:

En una amplia gama de puntos de referencia, RubiCap logra la tasa de ganancia más alta en CapArena, superando la destilación supervisada, los métodos RL anteriores, la anotación de expertos humanos y los resultados aumentados con GPT-4V. En CaptionQA, muestra una eficiencia de ruido superior: nuestro modelo 7B coincide con las instrucciones Qwen2.5-VL-32B y nuestro modelo 3B supera a su contraparte 7B. En particular, el uso del compacto RubiCap-3B como subtítulo produjo VLM preentrenados más potentes que los entrenados con subtítulos de modelos propietarios.

Y

En una evaluación de clasificación ciega, el RubiCap-7B logró la mayor proporción de asignaciones de rango 1 entre todos los modelos, incluidos el 72B y el 32B Frontier, con la penalización por alucinaciones más baja y la mayor precisión.

En caso de que se lo haya perdido, los investigadores observaron que el modelo pequeño de 3 mil millones de parámetros superó a su contraparte más grande en ciertos criterios, lo que sugiere que un modelo de subtítulos de imágenes denso y robusto no necesita un tamaño grande para proporcionar resultados de alta calidad.

Aquí hay algunas comparaciones de subtítulos entre RubiCap-7B-DenseFusion y Qwen2.5-VL-7B-Instruct:

Para saber más sobre el estudio, incluida una mirada en profundidad a sus términos técnicos, Sigue este enlace.

Vale la pena echarle un vistazo a Amazon

Enlace fuente