Home Smartwatch Al igual que el cerebro humano, los grandes modelos del lenguaje también...

Al igual que el cerebro humano, los grandes modelos del lenguaje también discuten sobre diversos datos

238

Aunque los modelos de idiomas tempranos solo pueden actuar sobre el texto, los modelos contemporáneos de lenguaje grande ahora realizan el trabajo más diverso en una variedad de datos. Por ejemplo, LLM puede comprender muchos idiomas, desarrollar un código de computadora, resolver problemas matemáticos o responder preguntas sobre imágenes y audio.

Los investigadores del MIT examinaron las obras internas de LLM para comprender mejor que actúan sobre datos tan diferentes y encontraron evidencia de que con el cerebro humano comparten algunas similitudes.

Los neuro científicos creen que el LOB temporal anterior es el “centro espiritual” del cerebro humano que integra información espiritual de varias maneras, como los datos visuales y la entrada de Supersh. Se asocia con el “portavoz” relacionado con el centro espiritual, que conduce a información sobre este camino hacia el centro. Los investigadores del MIT encontraron que los LLM utilizan procedimientos similares a través de datos de procesamiento de datos de una manera central y general. Por ejemplo, un modelo que tiene inglés es su idioma dominante, dependerá del inglés para tomar medidas sobre el aporte en japonés o por esto debido a las matemáticas, los códigos de computadora, etc. Pueden interferir con el centro espiritual de un modelo. El uso del texto en el idioma dominante del modelo para cambiar sus resultados, incluso cuando el modelo está procesando datos en otros idiomas.

Estos resultados pueden ayudar a los científicos a capacitar a los futuros LLM que pueden manejar diversos datos.

“Los LLM son cajas negras grandes. Han logrado un rendimiento muy impresionante, pero tenemos poca información sobre sus métodos de trabajo internos. Espero que haya demostrado ser un paso temprano para comprender mejor que podamos mejorarlos y controlarlos mejor cuando sea necesario”. Ingeniería eléctrica e informática (EECS) Estudiante de posgrado y esta investigación. Dice Zhofing Wu, el autor principal de la tesis.

Sus coautores incluyen a Zenyan Welvesi Yu, un estudiante graduado en la Universidad de California (USC). Danny Yugtama, profesor asociado en USC; Jason Lo, un científico investigador en Apple; Y el autor principal Yun Kim, profesor asistente de EEC en el MIT y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL). Esta investigación se presentará en la Conferencia Internacional sobre Aprendizaje.

Conectando diversos datos

Los investigadores basaron este nuevo estudio sobre el primer trabajo que indicó que los LLM concentrados en inglés usan el inglés para realizar el razonamiento en diferentes idiomas.

Wu y sus colegas extendieron la idea, que comenzó en el estudio profundo del mecanismo utilizando LLM para procesar diversos datos.

Un LLM, que consta de muchas capas interconectadas, divide el texto de entrada en palabras o sub -palabras llamadas tokens. El modelo asigna representación a cada token, lo que le permite descubrir la relación entre el token y crear la siguiente palabra en orden. En el caso de fotos o audio, estos tokens son compatibles con áreas específicas de una imagen o clip de audio.

Los investigadores encontraron que las capas iniciales de los datos del proceso modelo en su lenguaje o deberes particulares, como un portavoz del cerebro humano. Después de eso, el LLM transforma el token en el representante de prevalencia-resalencia conectada.

El modelo asigna la misma representación con un significado similar, a pesar de su tipo de datos, incluyendo imágenes, audio, códigos de computadora y problemas de matemáticas. Aunque una imagen y sus subtítulos de texto son los tipos de datos separados, ya que tienen el mismo significado, el LLM los asignará como una representación similar.

Por ejemplo, un LLM dominante en inglés “piensa” sobre la entrada de texto chino en inglés antes de producir una salida en azúcar. El modelo también tiene un argumento similar para los códigos de computadora, los problemas de matemáticas o incluso los datos multitudos, como la entrada no de texto.

Para probar esta suposición, los investigadores aprobaron un par de frases con el mismo significado, pero el modelo escribió en dos idiomas diferentes. Medió cuán similar está representando el modelo para cada oración.

Luego hizo una segunda combinación de experimentos en los que alimentó el texto modelo basado en inglés en un idioma diferente como los chinos, y midió cuánto su representación interna es similar a la del inglés vs. chino. Los investigadores realizaron experimentos similares para otros tipos de datos.

Descubrió permanentemente que la representación del modelo era la misma para oraciones tan significativas. Además, en muchos tipos de datos, los modelos que se procesaron en sus capas internas se parecían más a un enfoque en inglés que al tipo de datos de entrada.

“Muchos tipos de datos de entrada parecen ser bastante diferentes del idioma, por lo que nos sorprende mucho que cuando procesemos el modelo, podamos investigar el token inglés, por ejemplo, la expresión de matemáticas o codificación”, dice Wu.

Aprovechando el Centro Cementico

Los investigadores creen que LLM puede aprender la estrategia de este centro espiritual durante la capacitación, ya que es una forma económica de actuar en diferentes datos.

“Hay miles de idiomas, pero hay mucho conocimiento, como el conocimiento del conocimiento o los hechos. El modelo no necesita copiar este conocimiento en los idiomas”, dice Wu.

Los investigadores también intentaron interferir con las capas internas del modelo utilizando el texto inglés en otros idiomas. Descubrió que podía predecir los resultados del modelo, aunque estaba en otros idiomas.

Los científicos pueden beneficiar esta tendencia para alentar al modelo a compartir más información en diferentes tipos de datos, lo que potencialmente promueve el rendimiento.

Pero, por otro lado, puede haber conceptos o conocimiento que no se pueden traducir en idiomas o tipos de figuras, como el conocimiento culturalmente específico. Los científicos quieren que LLM tenga ciertos mecanismos de lenguaje en estos casos.

Wu dice: “¿Cómo se comparte tanto como sea posible, pero también permite que los idiomas tengan ciertos mecanismos de procesamiento relacionados con el lenguaje? ¿Que se pueden encontrar en el trabajo futuro sobre la arquitectura del modelo” “”

Además, los investigadores pueden usar estas ideas para mejorar el modelo múltiple. A menudo, un modelo dominante en inglés que aprende a hablar otro idioma perderá cierta precisión en inglés. Él dice que una mejor comprensión del centro espiritual de la LLM puede ayudar a los investigadores a prevenir esta interferencia del lenguaje.

Esta investigación ha sido parcialmente financiada por el laboratorio MIT-IBM Watson AI.

Source link