A pesar de tener sólo 3 mil millones de parámetros, Ferret-UI Lite iguala o supera el rendimiento de referencia de modelos 24 veces más grandes. Aquí están los detalles.
Un poco de historia sobre los hurones.
En diciembre de 2023, un equipo de 9 investigadores publicó un estudio llamado “”.HURÓN: Consulte y conecte a tierra cualquier cosa en cualquier lugar con cualquier granularidad.En él, presentaron un modelo de lenguaje grande multimodal (MLLM) que era capaz de comprender referencias en lenguaje natural a partes específicas de una imagen:

Desde entonces, Apple ha publicado una serie de artículos de seguimiento que amplían la familia de modelos Ferret, incluidos hurónv2, Hurón-UIY Hurón-UI 2.
En particular, Hurón-UI Las variantes ampliaron las capacidades centrales de FERRET y fueron entrenadas para superar lo que los investigadores definieron como las deficiencias del MLLM de dominio general.
desde la raíz papel hurón-ui:
Los avances recientes en los modelos multimodales de lenguaje grande (MLLM) son dignos de mención; sin embargo, estos MLLM de dominio general a menudo no alcanzan su capacidad para comprender e interactuar de manera efectiva con las pantallas de la interfaz de usuario (UI). En este artículo, presentamos Ferret-UI, una nueva interfaz de usuario móvil de MLLM desarrollada para mejorar la comprensión de las pantallas, equipada con capacidades de referencia, conexión a tierra y razonamiento. Dado que las pantallas de interfaz de usuario generalmente muestran una relación de aspecto más alargada y contienen objetos de interés más pequeños (por ejemplo, íconos, texto) que las imágenes nativas, incluimos “cualquier resolución” en ferret para ampliar los detalles y obtener propiedades visuales mejoradas.

Hace unos días Apple amplió la familia de modelos Ferret-UI, con un estudio llamado Ferret-UI Lite: Tutorial sobre cómo crear pequeños agentes GUI en dispositivos.
Ferret-UI se creó sobre un modelo de parámetros 13B, centrándose principalmente en la comprensión de la interfaz de usuario móvil y las capturas de pantalla de resolución fija. Mientras tanto, Ferret-UI 2 ha ampliado el sistema para admitir múltiples plataformas y renderizado de alta resolución.
Por el contrario, Ferret-UI Lite es un modelo mucho más liviano, diseñado para ejecutarse en dispositivos, sin dejar de ser competitivo con agentes GUI significativamente más grandes.
Hurón-UI Lite
Según los investigadores del nuevo artículo, “la mayoría de los métodos existentes de agentes GUI (…) se centran en grandes modelos básicos”. Porque “las sólidas capacidades de razonamiento y planificación de los grandes modelos del lado del servidor permiten que estos sistemas agentes alcancen capacidades impresionantes en una variedad de tareas de navegación GUI”.
Señalan que se ha avanzado mucho en los sistemas GUI de múltiples agentes y de extremo a extremo, que adoptan diferentes enfoques para agilizar las muchas tareas involucradas en la interacción agente con las GUI (“conexión a tierra de GUI de bajo nivel, comprensión de la pantalla, planificación de múltiples pasos y autorreflexión”), que son esencialmente demasiado grandes y computacionalmente eficientes para ejecutar.
Entonces, se propusieron desarrollar Ferret-UI Lite, una variante de 3 mil millones de parámetros de Ferret-UI, un modelo de lenguaje “construido con muchos componentes centrales, impulsado por conocimientos de capacitación a pequeña escala”.
Aprovechamiento de Ferret-UI Lite:
- datos de entrenamiento reales y sintéticos de múltiples dominios GUI;
- técnicas de acercamiento y recorte sobre la marcha (o en tiempo de conjetura) para comprender mejor partes específicas de la GUI;
- Técnicas de aprendizaje supervisadas de ajuste y refuerzo.
El resultado es un modelo que se acerca o incluso supera a los modelos de agentes GUI de la competencia en hasta 24 veces su número de parámetros.

Si bien la arquitectura general (que se detalla detalladamente en el estudio) es interesante, las técnicas de recorte y acercamiento en tiempo real son particularmente notables.
El modelo hace una predicción inicial, recorta a su alrededor y luego vuelve a predecir en esa región recortada. Esto ayuda a que un modelo tan pequeño compense su capacidad limitada para procesar una gran cantidad de tokens de imágenes.

Otra contribución notable del artículo es cómo Ferret-UI Lite esencialmente genera sus propios datos de entrenamiento. Los investigadores desarrollaron un sistema multiagente que interactúa directamente con la plataforma GUI para generar ejemplos de entrenamiento sintéticos a escala.
Hay un generador de tareas curriculares que sugiere objetivos de dificultad creciente, un agente de planificación los divide en pasos, un agente de conexión a tierra los ejecuta en pantalla y un modelo crítico evalúa los resultados.

Con este proceso, el sistema de capacitación captura las ambigüedades de las interacciones del mundo real (como errores, condiciones inesperadas y estrategias de recuperación), algo que sería mucho más difícil de hacer si se confiara en datos limpios y anotados por humanos.
Curiosamente, mientras Ferret-UI y Ferret-UI 2 utilizaron capturas de pantalla de iPhone y otras interfaces de Apple en su evaluación, Ferret-UI Lite fue entrenado y evaluado en entornos GUI de Android, web y de escritorio, utilizando puntos de referencia como AndroidWorld y OSWorld.
Los investigadores no señalan explícitamente por qué eligieron esta ruta para Ferret-UI Lite, pero probablemente refleja el hecho de que actualmente hay disponibles bancos de pruebas de agentes GUI reproducibles y a gran escala.
Sea como fuere, los investigadores descubrieron que, si bien Ferret-UI Lite funcionó bien en tareas de bajo nivel y de horizonte corto, no funcionó tan bien en interacciones más complejas de varios pasos, una compensación que originalmente se esperaría debido a las limitaciones de un modelo pequeño en el dispositivo.
Por otro lado, Ferret-UI Lite ofrece un agente local y, por extensión, privado (ya que ningún dato tiene que ir a la nube y procesarse en un servidor remoto) que interactúa de forma autónoma con la interfaz de la aplicación en función de las solicitudes del usuario, lo cual es, según todas las cuentas, bastante bueno.
Para obtener más información sobre el estudio, incluido un desglose de los puntos de referencia y los resultados, Sigue este enlace.











