Nos guste o no, no hay vuelta atrás: las aplicaciones y los sistemas operativos gravitarán constantemente hacia las interacciones de voz.
No obligatorio, pero sí inevitable.
Pero esta es la cuestión: ninguno de los puntos que voy a plantear significa que usted forzar Hablar con sus dispositivos en contra de su voluntad no es que la humanidad esté caminando sin pensar por el camino hacia un futuro en el que cada espacio compartido públicamente estará inevitablemente lleno de una cacofonía de intelectuales excesivamente dependientes y amantes de la IA.
La GUI no desaparecerá, al igual que la calculadora no desaparecerá después del lanzamiento de Lotus 1-2-3. De hecho, incluso hoy en día, todavía puedes comprar un ábaco si lo deseas. Algunos son realmente bastante caros..
Pero en este punto, es prácticamente inevitable que tanto los desarrolladores de aplicaciones como los sistemas operativos gravitarán cada vez más hacia las interacciones basadas en voz.
Y hay buenas razones para ello, la más obvia es la accesibilidad.
Con esto, no me refiero sólo a los usuarios que no pueden interactuar físicamente con sus dispositivos, aunque eso por sí solo es fantástico. También me refiero a usuarios que no son tan conocedores de la tecnología como usted, pero que tienen necesidades similares, ya que intentan navegar por teléfonos, computadoras y plataformas que parecen funcionar sin esfuerzo para todos los demás.
Y si su reacción instintiva es percibir a estos usuarios como perezosos, o algo parecido, lamento decírselo, pero está perdiendo el sentido de toda la promesa de la informática moderna.
Los avances tecnológicos reducirán las barreras de entrada y ayudarán a las personas a llegar a donde quieren ir, independientemente de su familiaridad con cualquier cosa, desde terminales hasta safaris.
De hecho, gran parte de la existencia de Apple se basó en esa premisa, incluso si sus líderes a veces parecían olvidarla.
hola computadora
Dicho todo esto, hay otra gran razón por la que un enfoque que priorice la voz es inevitable: la tecnología subyacente real necesaria para que funcione. Finalmente mejorando
Sí, todos los LLM todavía cometen errores estúpidos, y probablemente siempre los cometerán, siempre que se basen en el enfoque actual basado en transformadores autorregresivos.
Pero las empresas, los laboratorios de inteligencia artificial de vanguardia e incluso los desarrolladores independientes están aprendiendo a solucionar esas limitaciones o se van. Arquitectura totalmente diferenteAlgunos de los cuales son muy prometedores.
Durante el año pasado, hubo avances significativos en las interfaces basadas en voz, incluidas herramientas como Wispr y Speechify, que han experimentado una tasa de adopción cada vez mayor.
Según Tanoy Kothari, fundador y director ejecutivo de Wispr Flow, sus usuarios eventualmente llegan a un punto en el que la voz representa aproximadamente el 75% de todas las entradas de todos los productos. Y entre los usuarios adultos, el uso del teclado cae por debajo del 5%.
Y me comeré el sombrero si no trabajan con capacidades de agente adecuadas junto con sus herramientas de dictado. De hecho, Speechify ya se está moviendo claramente en esa dirección.
Además, no olvidemos el reciente tsunami provocado por OpenClaw, verrugas y todoLo que desbarató por completo lo que cualquiera esperaba que los agentes autónomos pudieran hacer en el corto plazo. De hecho, muchos usuarios confían en plataformas como ElevenLab para hablar en voz alta con sus agentes, algunos de los cuales han visto una implementación activa de la API de ElevenLab. garra abierta sí mismo
Cualquiera que sepa de lo que está hablando le dirá lo maravilloso que es. de nuevoVerrugas y todo.
La evolución se está acelerando en ese frente
Y así de rápido se están moviendo las cosas: comencé a escribir este artículo hace un tiempo, antes de que OpenClaw se convirtiera en lo que es hoy.
Originalmente escribí:
“(…) No pasará mucho tiempo antes de que las aplicaciones y los sistemas operativos se inclinen hacia marcos autónomos, donde los usuarios simplemente dicen lo que quieren y la IA gestiona el significado, mapea los pasos y ejecuta esa acción a través de aplicaciones listas para agentes en nombre del usuario”.
Como resulta, es en realidad no fue
Básicamente quería cerrar el texto señalando cosas MCP de AntropologíaAdemás de Apple Propósito de la aplicaciónPara explicar cómo encajan las piezas que permiten las interfaces listas para voz, incluso iba a sugerir que podríamos ver noticias en ese frente el próximo junio, durante la WWDC.
Ahora, cuando todavía creo que lo somos poder A medida que en junio llegan más funciones, API y capacidades basadas en voz, incluso la idea de que dependerán del desarrollador comienza a parecer miope o anticuada.
Puede que no recuerde bien los detalles, pero creo que fue John Gruber quien habló de cómo en algún lugar, probablemente en la Universidad de Drexel, finalmente allanaron el camino que la gente talló en la hierba porque era más corto que la ruta que diseñaron los arquitectos.
Sinceramente creo que, para muchos usuarios, la voz es el camino más corto.
Desde hacer una solicitud en un iPhone o Mac y obtener a cambio un acceso directo avanzado, hasta modificar fotos, ver y editar documentos, o incluso solicitar flujos de trabajo de varios pasos entre aplicaciones, está cada vez más claro que, a medida que la tecnología finalmente se pone al día, la interfaz que la mayoría de los usuarios encontrarán más fácil de navegar no es ninguna interfaz. O mejor dicho, una humanidad que se refina desde la primera concesión.
Dicho todo esto, todavía odio que la gente me envíe mensajes de voz.










