Home Apple El texto largo del nuevo modelo de lenguaje de Apple puede escribirse...

El texto largo del nuevo modelo de lenguaje de Apple puede escribirse increíblemente rápido

3

En un nuevo estudio, los investigadores de Apple han presentado un modelo de expansión que puede escribir 128 veces más rápido que sus piezas. Así es como funciona.

trozos de nardi

Esto es lo que necesita saber para este estudio: Los LLM como CATGPT son modelos autorregresivos. Generan el texto en orden, considerando tanto el mensaje del usuario del token como todos los tokens generados previamente a la vez.

A diferencia del modelo autorigial, existen modelos de expansión. Producen múltiples tokens en paralelo y los refinan en varios pasos recurrentes hasta que se obtiene la respuesta completa.

Finalmente, una variante de los modelos de expansión es el modelo de coincidencia de flujo, que originalmente evitó el proceso repetido de los modelos de expansión y aprendió a crear el resultado final de una vez.

Para profundizar en cómo funcionan los modelos de deserción, consulte esta publicación sobre el modelo de codificación basado en propagación de Apple. Y para obtener más información sobre cómo combinar modelos con flujo, consulte esta publicación sobre el modelo de coincidencia de flujo de Apple para plegar la proteína.

El nuevo estudio de Apple

Título en una encuesta publicada hoy “FS-DFM: Generaciones de textos largos rápidas y precisas con modelos de lenguaje de expansión de unos pocos pasos“Investigadores de Apple y la Universidad Estatal de Ohio han sugerido un nuevo modelo llamado Fol-Matching o FS-DFM.

En el estudio, los investigadores han demostrado que el FS-DFM fue capaz de escribir pasajes completos con sólo ocho rondas rápidas de refinamiento, que igualan la calidad de más de mil pasos para lograr resultados similares.

Para lograrlo, los investigadores adoptan un interesante método de tres pasos: en primer lugar, se entrena el modelo para gestionar los distintos presupuestos de refinamiento. Luego, utilizan un modelo guía de “maestro” para ayudar a que el texto previsto sea una actualización más grande, más completa y más precisa en cada repetición. Y finalmente, tuitean cómo hacen cada repetición para que el modelo sea bajo, el resultado final pueda llegar al resultado final.

En comparación con modelos de mayor expansión, FS-DFM tuvo un buen desempeño en dos métricas importantes: confusión y entropía.

En resumen, las puntuaciones de confusión son una métrica estándar para la calidad del texto en modelos de lenguaje. Cuanto menor es la confusión, más preciso y natural se escucha el texto.

Como entropía, originalmente mide que el modelo elige cada palabra con confianza. En la práctica, si la entropía es muy baja, el texto puede repetirse o estimarse, si es demasiado alta, puede empezar a sonar aleatorio o inconsistente.

Compare la expansión del sueño con 7 mil millones de parámetros y con 8 mil millones de parámetros, las variantes de FS-DFM con 1,7, 1,3 y 0,17 mil millones de parámetros lograron consistentemente una menor confusión y mantuvieron una entropía más estable en todas las repeticiones.

Los resultados y este método mostraron y prometieron carecer de modelos y estudios similares, los investigadores también dijeron que estaban “planeando publicar códigos y puntos de control de modelos para la conveniencia de la reproducción y futuras investigaciones”.

Si desea profundizar más en los detalles de los métodos de Apple y los modelos de Apple, más profundamente en los detalles. artículo completo R. Esto es lo mismo ya que presenta múltiples ejemplos de rendimiento como este, el color que codifica la repetición a la que se cambió por última vez cada palabra:

Figura 9: Cronograma de generación a nivel de token. Muestra final del texto mostrado; Cada fondo
El token codifica los pasos de su último cambio utilizando los ocho colores claros del token (inicio → final). Si aparece el token primario estable
En las primeras cartas, la edición tardía crea la tendencia hacia los últimos colores, el refinado local y la transformación general.
Fácil de ver. Tenga en cuenta que muchas fichas son de color amarillo, lo que indica que se predijeron al principio del proceso. Este
Debido a la escala creciente (compárese con la Figura 4).

“FS-DFM: Encuentra la generación rápida y correcta de textos largos con modelos de lenguaje” ArxativoEl

Oferta de accesorios de Amazon

Enlace fuente