Home Smartwatch Los liners pueden permitir un uso nativo eficiente en teléfonos y portátiles...

Los liners pueden permitir un uso nativo eficiente en teléfonos y portátiles con modelos de idiomas grandes.

44
0

Los modelos de lenguajes grandes (LLM) automatizan cada vez más tareas como la traducción, la clasificación de textos y la atención al cliente. Pero aprovechar el poder de LLM generalmente requiere que los usuarios envíen sus solicitudes a un servidor centralizado, un proceso que es costoso, consume mucha energía y, a menudo, es lento.

Ahora, los investigadores han introducido una técnica para comprimir datos de LLM, que puede aumentar la privacidad, ahorrar energía y reducir costos.

El nuevo algoritmo, desarrollado por ingenieros de ingeniería de Princeton y Stanford, funciona recortando objetos redundantes y reduciendo la precisión de las capas de información de LLM. Este tipo de LLM optimizado se puede almacenar y acceder a él localmente en un dispositivo como un teléfono o una computadora portátil y puede proporcionar un rendimiento casi tan preciso y crítico como la versión sin comprimir.

“Cada vez que se pueden reducir la complejidad computacional, el almacenamiento y los requisitos de ancho de banda del uso de modelos de IA, se puede habilitar la IA en dispositivos y sistemas que de otro modo no podrían manejar tales tareas informáticas y de uso intensivo de memoria”, dijo la coautora del estudio, Andrea. Orfebre, decano. Escuela de Ingeniería y Ciencias Aplicadas de Princeton y Profesor Arthur Le Grand Doty de Ingeniería Eléctrica e Informática.

“Cuando usas ChatGPT, cada solicitud que realizas va a los servidores backend de OpenAI, que procesan todos esos datos, y eso es muy costoso”, dijo el coautor Stanford Engineering Ph.D. Estudiante “Entonces, desea poder estimar estos LLM utilizando GPU (unidades de procesamiento de gráficos) de consumo, y la forma de hacerlo es comprimir estos LLM”. El trabajo de posgrado de Saha ha sido asesorado por Goldsmith y la profesora asistente de ingeniería de Stanford, Merit Palanke.

Los investigadores presentarán su nuevo algoritmo CALDERA, que significa Descomposición de baja precisión consciente de la calibración con adaptación de bajo rango, en la Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS) en diciembre. Saha y sus colegas comenzaron esta investigación de compresión no con los LLM en sí, sino con grandes conjuntos de datos utilizados para entrenar LLM y otros modelos complejos de IA, como los utilizados para la clasificación de imágenes. Esta técnica, precursora del nuevo enfoque de compresión LLM, se publicó en 2023.

Tanto los conjuntos de datos de entrenamiento como los modelos de IA constan de matrices o cuadrículas de números que se utilizan para almacenar los datos. En el caso de los LLM, se denominan matrices de peso, que son representaciones numéricas de patrones de palabras aprendidos de grandes fragmentos de texto.

“Propusimos un algoritmo general para comprimir grandes conjuntos de datos o matrices grandes”, dijo Saha. “Y luego nos dimos cuenta de que hoy en día, no sólo los conjuntos de datos son grandes, sino que los modelos que se implementan también son cada vez más grandes. Por eso, desarrollamos nuestro algoritmo para comprimir esos modelos. También se pueden utilizar”.

Aunque el algoritmo del equipo no es el primero en comprimir LLM, su novedad radica en la combinación innovadora de dos características, una llamada “baja precisión” y la otra “bajo rango”. A medida que las computadoras digitales almacenan y procesan información como bits (ceros y unos), las representaciones de “baja precisión” reducen la cantidad de bits, acelerando el almacenamiento y el procesamiento al tiempo que mejoran la eficiencia energética. Por otro lado, “nivel bajo” se refiere a reducir la redundancia en la matriz de ponderación del LLM.

“Al usar estas dos características juntas, podemos lograr una compresión mucho mayor que la que podríamos lograr con cualquiera de estas técnicas individualmente”, dijo Saha.

El equipo probó su técnica utilizando Lamma 2 y Lamma 3, grandes modelos de lenguaje de código abierto lanzados por MetaAI, y descubrió que su método, que combina componentes de precisión de bajo nivel y de bajo nivel, se puede utilizar para mejorar Otros métodos que sólo utilizan menos precisión. La mejora puede ser de hasta el 5 %, lo cual es significativo para las métricas que miden la incertidumbre en la predicción del orden de las palabras.

Evaluaron el rendimiento de modelos de lenguaje comprimido utilizando varios conjuntos de tareas de referencia para LLM. Las tareas incluyen determinar el orden lógico de dos afirmaciones o responder preguntas de razonamiento físico, como cómo separar las claras de las yemas o cómo preparar una taza de té.

“Creo que es alentador y un poco sorprendente que hayamos podido obtener un rendimiento tan bueno en este esquema de compresión”, dijo Goldsmith, quien se transfirió a Princeton desde Stanford Engineering en 2020. Pudimos hacerlo mucho mejor con el algoritmo de compresión habitual para los bits que representan la matriz de peso”.

Por tanto, el uso de LLM comprimido puede ser apropiado para situaciones que no requieren la mayor precisión posible. Además, la capacidad de implementar LLM comprimidos en dispositivos periféricos, como teléfonos inteligentes o computadoras portátiles, mejora la privacidad al permitir que las organizaciones y las personas adapten los modelos a sus necesidades específicas sin compartir datos confidenciales con proveedores externos. Esto reduce el riesgo de violaciones de datos o acceso no autorizado a información confidencial durante el proceso de capacitación. Para permitir esto, los LLM deben estar inicialmente lo suficientemente comprimidos para caber en GPU de consumo.

Saha también advirtió que ejecutar LLM en un teléfono inteligente o computadora portátil podría bloquear temporalmente la memoria del dispositivo. “No estarás contento si estás haciendo un LLM y tu teléfono se queda sin carga en una hora”, dijo Saha. Añadió que los cálculos de baja precisión pueden ayudar a reducir el consumo de energía. “Pero no diría que existe una técnica única que resuelve todos los problemas. Lo que proponemos en este artículo es una técnica que se utiliza en combinación con técnicas propuestas en trabajos anteriores. Y creo que esta combinación nos permitirá utilizar los LLM más eficientemente y obtener resultados más precisos en dispositivos móviles.”

papel,”Compresión de modelos de lenguaje grandes mediante descomposición de bajo rango y baja precisión“, se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) en diciembre de 2024. Además de Goldsmith, Saha y Palanke, los autores incluyen a los investigadores de ingeniería de Stanford Naomi Sagan y Varun Srivastava. Science Foundation, la Oficina de Investigación del Ejército de EE. UU. y la Oficina de Investigaciones Navales.

Source link