Dado que las plataformas de redes sociales y los mercados de valores han sido rumoreados con la popularidad de la nueva agencia de IA DIPC, un informe de Burnstein dice que DePSCK se ve fantástico pero no un milagro y no se ha construido en $ 5 millones.
El informe abordó el rumor en torno a los modelos dipsic, especialmente la idea de que la compañía creó algo comparable a la apertura. Según el informe, este reclamo es confuso y no refleja toda la imagen.
Dice “Creemos que Depsec” no ha abierto por 5 m de dólares estadounidenses;
Burnstein informa que DIPSEC creó dos familias principales del modelo AI: ‘DIPSEC-V3’ y ‘DIPSEC R1’. El modelo V3 es un modelo de lenguaje grande que utiliza una arquitectura de mezcla (MOE).
Este método combina múltiples modelos más pequeños para trabajar juntos, lo que resulta en una alta efectividad cuando se usa recursos informáticos significativamente más bajos que otros modelos grandes. El modelo V3 tiene un total de 671 mil millones de parámetros, en cualquier momento 37 mil millones activos.
También incluye técnicas innovadoras como la atención latente de Multi-Head (MHLA), lo que reduce el uso de la memoria y mezcla el entrenamiento de funciones de mezcla utilizando FP8, lo que mejora las habilidades.
Para entrenar el modelo V3, DEPSEC utilizó un grupo de 2,048 GPU NVIDIA H 800 durante aproximadamente dos meses, aproximadamente 2,7 millones de horas de GPU para la capacitación previa y 2.8 millones de GPU con entrenamiento.
Aunque algunos han estimado el costo de la capacitación en alrededor de US $ 5 millones sobre la base de las tarifas de las horas de la GPU, el informe establece que esta imagen no es responsable de una amplia investigación, examen y otros gastos involucrados en el desarrollo de esta imagen.
El segundo modelo, ‘Depsecr 1’, se realiza en la Fundación V3, pero utiliza el aprendizaje de refuerzo (RL) y otras técnicas para mejorar significativamente las capacidades razonables. El modelo R1 ha sido particularmente impresionante, desempeñando competitivamente contra modelos Operai en funciones racionales.
Sin embargo, el informe señaló que los recursos adicionales requeridos para el desarrollo de la R1 probablemente eran suficientes, aunque no se determinó la cantidad de trabajo de investigación de la Compañía.
A pesar de la exageración, el informe enfatizó que los modelos del diplic eran realmente impresionantes. Por ejemplo, el modelo V3 realiza solo una fracción de los recursos informáticos cuando se usa el lenguaje, la codificación y los criterios matemáticos o mejores que otros modelos grandes.
Por ejemplo, la capacitación V3 requiere alrededor de 2.7 millones de horas de GPU, que son solo el 9 por ciento de las compañías de conteo requeridas para capacitar a algunos otros modelos principales.
En la conclusión, el informe señaló que, aunque los logros de la DIPSC son significativos, el exagerado está aterrorizado y exagerados afirmaciones sobre la creación de un concursante de OpenAI por $ 5 millones.
(Excepto por el título, esta historia no es editada por el personal de NDTV y se publica desde el feed sindicado)))