El programador ahora puede usar grandes modelos de lenguaje (LLM) para desarrollar el código de la computadora más rápidamente. Sin embargo, solo facilita la vida de los programadores si sigue las reglas del lenguaje de programación de código y no causa un bloqueo de computadora.

Hay algunas maneras en que la LLM asegura que el lenguaje que están produciendo estén de acuerdo con los principios del texto, pero muchas de estas formas están distorsionadas por el significado del modelo o requieren tiempo para ser posible para tareas complejas.

Un nuevo enfoque desarrollado por los investigadores del MIT dirige automáticamente a una LLM para desarrollar un texto que se adhiera a las reglas de lenguaje relevantes, como un lenguaje de programación particular, y también es erróneamente gratuito. Su procedimiento permite que la LLM asigne esfuerzos a los resultados que tienen más probabilidades de ser precisos y precisos, al tiempo que rechazan resultados inesperados al comienzo del proceso. Esta posibilidad aumenta el rendimiento computacional.

Debido a los beneficios de este rendimiento, la arquitectura de los investigadores permitió a los pequeños LLM mejorar los modelos muy grandes en la producción de un resultado estructural preciso y apropiado para múltiples problemas de uso del mundo real, incluida la biología molecular y la robótica.

En mucho tiempo, esta nueva arquitectura puede ayudar a controlar el contenido de IA-Infield. Por ejemplo, esto puede permitir a los empresarios escribir preguntas complejas en el SQL, que es el lenguaje de la manipulación en la base de datos, utilizando solo indicadores de lenguaje natural.

“Este trabajo tiene más allá de la investigación. Puede mejorar los asistentes de programación, el análisis de datos con poder IA y las herramientas de descubrimiento científica para garantizar que la producción de la generación de IA sea útil y precisa”.

Lola ha sido incluida en el artículo de los autores de coeficiente Benjamin Libron, asistente de investigación en el Instituto de la Institución Artificial Mullah Kobac, y un estudiante graduado en la Universidad John Hopkins. Los autores de Co -senior Vikash Mansinghka ’05, Meng ’09, PhD ’09, que es un principal científico de investigación y líder del proyecto informático potencial en el cerebro y las ciencias académicas del MIT. Profesor Asistente de la Universidad de Yale, Liu SM ’20 de Alexander; Tim Vira, un post -franqueo en ETH Zuric. Y Timothy Jo Donal, profesor asociado en la Universidad McGill y el presidente canadiense de IA Saifer, que dirigió el equipo internacional. También muchos otros. Esta investigación se presentará en la Conferencia Internacional sobre Aprendizaje.

Implementar la estructura y el significado

Para controlar el texto estructural creado por LLMS, un enfoque normal implica verificar la salida completa como un bloque de código de computadora, para garantizar que sea correcto y ejecutará un error. Si no, el usuario tiene que reanudar, agudizando los recursos computacionales.

Por otro lado, un programador puede dejar de verificar la salida en el camino. Aunque esto puede garantizar que la programación de código esté siguiendo el lenguaje y sea estructuralmente preciso, corregir este código puede hacer que la intención del usuario elimine su significado, lo que provoca su precisión más.

“Es muy fácil hacer cumplir más estructuras que significado. Podemos probar rápidamente si algo está en el lenguaje de programación correcto, pero debe procesar el código para probar su significado”, dice Lola.

Las perspectivas de los investigadores incluyen el conocimiento de la ingeniería en LLM para que pueda sentirse atraído por los resultados más inteligentes. Es más probable que estos resultados sigan los obstáculos estructurales descritos por un usuario y significan la intención del usuario.

Manninghka agregó: “No estamos tratando de entrenar a un LLM para ello. En cambio, estamos haciendo una ingeniería de conocimiento que tendrá un especialista y lo conectará con el conocimiento de LLM, que ofrece un enfoque muy diferente para escalar en su aprendizaje profundo”.

Utilizan esta técnica utilizando una técnica, que permite que la LLM compite con la generación paralela. El modelo asigna recursos en diferentes hilos del cálculo dinámicamente paralelo, sobre la base de los cuales aparece la promesa de producirlos.

Cada salida recibe un peso que representa cuánto es probable que sea estructuralmente preciso y teóricamente correcto. En cada etapa del cálculo, el modelo se centra en personas con sobrepeso y lanzan el resto.

En cierto sentido, es como si el LLM tuviera un especialista que sea visible en su hombro para asegurarse de que tome la decisión correcta en cada paso, al tiempo que lo mantiene centrado en el propósito general. El usuario explica cómo verificar la salida, así como el significado de su estructura y significado deseados, luego la arquitectura de los investigadores guía al LLM para el resto de las tareas.

Lola dice: “Hemos trabajado en matemáticas duras para que obtengas un peso adecuado para cualquier tipo de obstáculos, que quieras incluir. Finalmente, obtienes la respuesta correcta”.

Promoción de modelos pequeños

Para examinar su enfoque, aplicaron el marco a LLM para producir cuatro tipos de resultados: código Azigar, preguntas de base de datos SQL, estructuras moleculares y persecución.

En comparación con los métodos actuales, los procedimientos de los investigadores realizaron con mayor precisión durante la necesidad de un bajo conteo.

Por ejemplo, en la generación de código de Python, la arquitectura de los investigadores permitió un pequeño modelo de código abierto para mejorar un modelo especial de código cerrado comercial que duplica su tamaño.

“Estamos emocionados de poder permitir que estos modelos más pequeños golpeen más que su peso”, dice Lola.

En el futuro, los investigadores quieren usar sus técnicas para controlar grandes partes del texto preparadas en lugar de trabajar una pieza pequeña a la vez. También quieren asociar su metodología con el aprendizaje, de modo que cuando controlan los resultados de un modelo, aprende a ser más preciso.

A la larga, este proyecto puede contener aplicaciones más amplias para usuarios no técnicos. Por ejemplo, se puede mezclar con un sistema de modelado de datos automático y un modelo de generación de bases de datos.

Mansinghka agregado, el enfoque también puede habilitar el sistema de análisis de datos con la máquina, donde el usuario puede interactuar con el software que corrige el significado de los datos y las preguntas que el usuario realiza correctamente por el usuario.

“Una de las preguntas básicas de la lingüística es cómo las palabras, frases y oraciones pueden interponerse en los patrones del mundo, que pueden calcularse en el significado y la referencia a la incertidumbre y la ambigüedad. Como es posible crear un mapa de palabras, es posible crear un mapa de la distribución de palabras, es posible hacer técnicamente hacer que los mapas de distribución de palabras que constituyan la lingüística y cómo entender el mundo.

Esta investigación se ha proporcionado, en parte, a través del Programa Canadian Saifer AI Sillas, y a través de la Fundación Familiar Siggel, a través del regalo de la búsqueda de inteligencia de la familia Siggel.

Source link