Home Técnica Estos nuevos modelos de transcripción de IA están diseñados para brindar velocidad...

Estos nuevos modelos de transcripción de IA están diseñados para brindar velocidad y privacidad

21

A veces quieres copiar algo, pero no quieres que quede colgado en Internet para que lo vea cualquier hacker. Tal vez sea una conversación con su médico o abogado. Quizás usted sea periodista y ésta sea una entrevista delicada. La privacidad y el control son importantes.

Una de las razones de ese deseo de privacidad es que el desarrollador francés Mistral AI ha creado sus últimos modelos de transcripción para que sean lo suficientemente pequeños. Ejecutar en dispositivos. Pueden ejecutarse en su teléfono, su computadora portátil o en la nube.

Voxtral Mini Transcribe 2Uno de los nuevos modelos anunciados el miércoles es “súper, súper pequeño”, me dijo Pierre Stock, vicepresidente de operaciones científicas de Mistral. Otro modelo nuevo, Voxtral Realtime, puede hacer lo mismo pero con subtítulos en vivo.

Atlas de IA

La privacidad no es la única razón por la que la empresa quería hacer pequeñas Modelo de código abierto. Al ejecutarse directamente en el dispositivo que estás utilizando, estos modelos pueden funcionar más rápido. Ya no tendrá que esperar a que los archivos viajen por Internet hasta el centro de datos y regresen.

“Lo que quieres es que la transcripción se realice muy, muy cerca de ti”, dijo Stock. “Y podemos encontrar cualquier dispositivo periférico que esté más cerca de usted, como una computadora portátil, un teléfono o un dispositivo portátil como un reloj inteligente”.

La baja latencia (léase: alta velocidad) es especialmente importante para la transcripción en tiempo real. El modelo en tiempo real de Voxtral puede producir una latencia tan baja como 200 milisegundos, dijo Stock. Puede transcribir las palabras de un hablante tan rápido como usted puede leerlas. Ya no tendrás que esperar dos o tres segundos para captar los subtítulos.

Échale un vistazo: La escasez de chips afecta a los iPhone, OpenAI estanca la inversión, acusaciones de censura de TikTok | Tecnología hoy

El modelo en tiempo real de Voxtral está disponible a través de la API de Mistral y abrazos en la carajunto con una demostración Dónde puedes probarlo.

En algunas pruebas breves, descubrí que se construyó con bastante rapidez (aunque no tan rápido como se esperaría si estuviera en el dispositivo) y, con un poco de español mezclado, pude capturar con precisión lo que dije en inglés. Según Mistral, ahora es capaz de manejar 13 idiomas.

Voxtral Mini Transcribe 2 también está disponible a través de la API de la empresa, o puedes jugar con él Estudio de IA de Mistral. Utilicé el modelo para transcribir mis entrevistas con Stock.

Lo encontré rápido y bastante confiable, aunque tiene problemas con nombres propios como Mistral AI (llamado Mr. Lay Eye) y Voxtral (Voxtrol). Sí, el modelo de IA en sí tiene un nombre incorrecto. Pero Stock dijo que los usuarios pueden personalizar el modelo para comprender mejor ciertas palabras, nombres y semántica cuando lo usan para tareas específicas.

El desafío de construir modelos de IA pequeños y rápidos es que también tienen que ser precisos, afirmó Stock. La compañía promocionó el desempeño del modelo en los puntos de referencia, mostrando mejores tasas de error que los competidores.

“No basta con decir: “Está bien, haré un modelo pequeño”, dijo Stock. “Todo lo que necesitas es un modelo más pequeño que tenga la misma calidad que el modelo más grande, ¿verdad?”.

Enlace fuente