Home Técnica ¿Cómo está una pequeña compañía de IA china temblando nuestros pesos pesados...

¿Cómo está una pequeña compañía de IA china temblando nuestros pesos pesados ​​tecnológicos?

51
0


Sydney:

La compañía china de inteligencia artificial (IA) ha enviado Depsec Whockwave a través de la comunidad tecnológicaCon la publicación de modelos de IA altamente calificados que pueden competir con productos de vanguardia de empresas estadounidenses como OpenAI y etnográfica.

Establecido en 2023, contiene Depsec Lograr los resultados Sus competidores incluyen una fracción de efectivo y potencia informática.

El modelo “Lógica” y R1 del DIPC publicado la semana pasada provocó la emoción entre los investigadores, el shock entre los inversores y las reacciones de los pesos pesados ​​de IA. La compañía siguió el 25 de enero Un modelo Puede funcionar con la imagen y con el texto.

Entonces, ¿qué hizo Dipsec y cómo lo hizo?

Dipsec que hizo

En diciembre, Depsec lo reveló Modelo V3El Es un modelo de lenguaje grande “estándar” muy potente que realiza el GPT -4O y antrópico revestido de OpenAI.

Aunque estos modelos son errores y propensos A veces sube su propia informaciónPueden manejar trabajos como responder preguntas, escribir ensayos y crear códigos de computadora. Abierto Probar algo Entre la resolución de problemas y los argumentos matemáticos, obtienen mejor que las personas promedio.

V3 fue entrenado El informe costos Alrededor de 5.58 millones de dólares estadounidenses. Es dramáticamente más barato que GPT -4, por ejemplo, que gastó US $ 100 millones Desarrollar.

Dipsec también afirmó estar capacitado por V3 utilizando aproximadamente 2,000 chips de computadora especializados, especialmente H 800 GPU Hecho por NvidiaEl Es mucho más bajo que otras compañías nuevamente, lo que podría usar Hasta 16,000 Más potentes chips H1 100.

El 20 de enero, Dipsec ha publicado un modelo más, R1 se llamaEl Este es un modelo de “lógica” llamado, que trata de funcionar a través de problemas complejos de paso por paso. Estos modelos parecen ser mejores en muchas actividades, que requieren contexto y tienen múltiples partes interceladas, como la lectura y los planes estratégicos.

El modelo R1 es una versión de Tweet de V3, que se modifica con una estrategia llamada Reforce Learning. R1 parece funcionar al mismo nivel OPERAI’S O 1Lanzado el año pasado.

Dipsec utilizó la misma técnica para crear la versión “lógica” de los modelos de código abierto más pequeños que pueden ejecutarse en las computadoras de inicio.

Esta expresión ha creado un gran entusiasmo de interés en DIPSC, mejora su popularidad. Aplicación de chattabot impulsada por V3 Y activar un Aplastar Los inversores como acciones de tecnología reevalúan la industria de IA. Mientras escribe, Chipmeaker Nvidia Perdió unos 600 mil millones de dólares estadounidenses El valor.

Dipsec lo ha hecho

Los avances de Dipsic son más hábiles: obtener buenos resultados con los bajos recursos. Específicamente, los desarrolladores de los Diplos han planteado las dos técnicas que los investigadores de IA pueden adoptar más extensamente.

El primero está relacionado con un concepto matemático llamado “sparcidad”. Hay muchos parámetros de los modelos AI que determinan las reacciones de las entradas (aproximadamente 671 mil millones de V3), pero se usa una pequeña fracción de estos parámetros para cualquier entrada dada.

Sin embargo, no es fácil predecir qué parámetros se necesitarán. Dipsec utilizó una nueva estrategia para hacer esto y luego entrenó solo esos parámetros. Como resultado, sus modelos necesitaban mucho menos entrenamiento que un método convencional.

Otras estrategias deben hacer cómo almacenar información en la memoria de la computadora V3. DEPSEC ha encontrado una linda forma de comprimir los datos relevantes, por lo que es más fácil guardar y acceder rápidamente.

Qué significa

Se han publicado modelos y técnicas de Dipsco en Mi licenciaLo que significa que cualquiera puede descargarlos y corregirlos.

Aunque puede ser una mala noticia para algunas agencias de IA, cuyas ganancias se pueden borrar libremente, la existencia de modelos fuertes, es una gran noticia para la comunidad de investigación de IA.

Actualmente, mucha investigación de IA requiere una gran cantidad de acceso a recursos informáticos. Investigadores como yo se basan en universidades (o en cualquier lugar que no sean grandes compañías de tecnología) tienen una capacidad limitada para examinar y probar.

Los modelos y técnicas más hábiles cambian la situación. El examen y el desarrollo ahora pueden ser significativamente fácil para nosotros.

Para los clientes, el acceso a la IA también puede ser barato. Se pueden conducir más modelos de IA en sus propios dispositivos como computadoras portátiles o teléfonos en lugar de ejecutar “nube” para las tarifas de suscripción.

Para los investigadores que ya tienen muchos recursos, más habilidades pueden ser menos efectivas. No está claro que la vista del DIPSC ayude a crear modelos con un mejor rendimiento en general, o simplemente ayudará a crear modelos más calificados.Conversación

(Autor: Tongeliang liuProfesor asociado de aprendizaje automático y director del Sydney AI Center, Universidad de Sydney)

(Declaración de publicación: Tongeliang Liu consulta por dinero de cualquier empresa u organización que se beneficiará de este artículo, no funciona ni acepta sus propias acciones y no ha publicado ninguna relación relevante más allá de su nombramiento académico))))

(Este artículo ha sido expresado de Conversación Bajo la licencia Creative Commons. Leer Llave.)


Source link