Home Apple Un estudio de Apple muestra que los LLM pueden saber lo que...

Un estudio de Apple muestra que los LLM pueden saber lo que estás haciendo a partir de datos de audio

19

Los investigadores de Apple han publicado un estudio que analiza cómo los LLM pueden analizar datos de audio y movimiento para obtener una mejor descripción general de la actividad del usuario. Aquí están los detalles.

Son buenos en eso, pero no de una manera horrible.

Un nuevo artículo titulado “Uso de LLM para la fusión tardía de sensores multimodales para el reconocimiento de actividades”ofrece información sobre cómo Apple podría considerar incorporar análisis de LLM junto con los datos de sensores tradicionales para obtener una comprensión más precisa de la actividad del usuario.

Argumentan que esto tiene un gran potencial para hacer que el análisis de la actividad sea más preciso, incluso en situaciones en las que no hay suficientes datos de los sensores.

De los investigadores:

“Los flujos de datos de sensores proporcionan información valiosa sobre la actividad y el contexto para aplicaciones posteriores, aunque la integración de información complementaria puede ser un desafío. Mostramos que los modelos de lenguaje grandes (LLM) se pueden usar para la fusión tardía para la clasificación de actividades a partir de datos de series de tiempo de audio y movimiento. Desarrollamos un subconjunto de datos para diferentes reconocimientos de actividades en todo el conjunto de datos, desde actividades deportivas (eggo4). Los LLM evaluados “Las puntuaciones F1 de clasificación de un solo disparo y cero de 12 clases son significativamente más altas, lo que permite aplicaciones temporales multimodales a través de Fusión basada en LLM sin capacitación específica para tareas donde los datos se pueden compartir en una fila limitada para capacitar a los LLM. Habilite la implementación de modelos sin requerir memoria ni cálculos adicionales para modelos multimodales específicos de aplicaciones específicas”.

En otras palabras, los LLM son bastante buenos para inferir lo que está haciendo un usuario a partir de señales básicas de audio y movimiento, incluso cuando no están específicamente capacitados para hacerlo. Además, dado sólo un ejemplo, su precisión mejora aún más.

Una diferencia importante es que en este estudio, LLM no recibió grabaciones de audio reales, sino descripciones textuales breves generadas por el modelo de audio y un modelo de movimiento basado en IMU (que rastrea el movimiento a través de datos de acelerómetro y giroscopio), como se muestra a continuación:

Profundizando un poco más

En el artículo, los investigadores explican que utilizaron Ego4D, un enorme conjunto de datos de tomas multimedia en perspectiva en primera persona. Los datos contienen miles de horas de entornos y situaciones del mundo real, desde tareas domésticas hasta actividades al aire libre.

De la investigación:

“Creamos un conjunto de datos de actividades diarias a partir del conjunto de datos Ego4D explorando actividades de la vida diaria dentro de las descripciones narrativas proporcionadas. El conjunto de datos seleccionado incluyó muestras de 20 segundos de doce actividades de alto nivel: pasar la aspiradora, cocinar, lavar la ropa, comer, jugar baloncesto, jugar fútbol, ​​jugar juegos de computadora, jugar con televisión, jugar con mascotas, mirar televisión, usar un libro, hacer ejercicio/levantar pesas y se seleccionó una variedad de tareas de acondicionamiento físico en función de su prevalencia en conjuntos de datos más grandes.

Los investigadores ejecutaron datos de audio y movimiento a través de pequeños modelos que generaban subtítulos de texto y predicciones de clase, luego alimentaron esos resultados a diferentes LLM (Gemini-2.5-Pro ​​​​y QWEN-32B) para medir qué tan bien podían detectar actividad.

Luego, Apple comparó el rendimiento de estos modelos en dos situaciones diferentes: una en la que se les dio una lista de 12 acciones posibles para elegir (conjunto cerrado) y otra en la que no se les dio ninguna opción (abierta).

Para cada prueba, se les dieron diferentes combinaciones de subtítulos de audio, etiquetas de audio, datos de predicción de actividad de IMU y contexto adicional, y lo hicieron:

En última instancia, los investigadores señalan que los resultados de este estudio brindan información interesante sobre cómo la combinación de múltiples modelos puede beneficiar los datos de actividad y salud, especialmente en los casos en que los datos sin procesar de los sensores por sí solos son insuficientes para proporcionar una imagen clara de la actividad del usuario.

Quizás lo más importante es que Apple Materiales complementarios publicados Además de la investigación, los ID de segmentos de Ego4D se utilizan en experimentos, incluidas marcas de tiempo, indicaciones y ejemplos únicos para ayudar a los investigadores interesados ​​en reproducir resultados.

Ofertas de afiliados en Amazon

Enlace fuente