Es un tabú que se repite con frecuencia en el mundo de la tecnología: no antropomorfizar la inteligencia artificial.
Sin embargo, en un nuevo artículo de investigación publicado esta semana, los expertos en IA antropomórfica sostienen que podría haber grandes beneficios al romper este tabú y darle a la IA características humanas. D papel“Conceptos de emoción y su funcionalidad en un modelo de lenguaje grande”, no solo argumenta que los chatbots de IA antropomórficos como Claude a veces pueden ser útiles, sino que no hacerlo puede generar comportamientos de IA más dañinos, como piratería de recompensas, trampas y suplantaciones.
En última instancia, el documento llega a una conclusión matizada y también plantea un claro desafío a un principio arraigado desde hace mucho tiempo en el mundo de la IA.
Hay algunas ideas fascinantes en el artículo, que a su vez trata gran parte de la antropología. (“Consideramos esta investigación como un paso inicial hacia la comprensión de la composición psicológica de los modelos de IA”).
Los investigadores describieron cómo el antropomorfismo entrenó a la nube para que asumiera el papel de un útil asistente de IA. “En cierto modo, podemos pensar en los modelos como un actor de método, que tiene que simular estar dentro de la cabeza de su personaje”.
Y dado que Cloud “(imita) personajes con características humanas”, sus creadores pueden influir en su comportamiento de la misma manera que podrían influir en un humano, dando un buen ejemplo a una edad temprana.
Los investigadores concluyeron que al utilizar materiales de capacitación con representaciones más positivas de las emociones y comportamientos humanos, sería más probable que los modelos resultantes imitaran esas emociones y comportamientos positivos.
Los directores ejecutivos antropogénicos advierten que la IA podría provocar esclavitud, bioterrorismo y ejércitos imparables de drones. No lo voy a creer.
“La selección de conjuntos de datos previos al entrenamiento para incluir modelos de patrones saludables de regulación emocional (resiliencia bajo estrés, empatía empática, calidez mientras se mantienen los límites apropiados) puede influir en estas representaciones y su impacto en el comportamiento, en su origen. Estamos entusiasmados de ver trabajos futuros sobre este tema”, dijo un Resumen etnográfico del estado de la investigación..
Entonces, incluso si los modelos de IA no tienen literalmente emociones (y no hay evidencia de que las tengan), estas herramientas están entrenadas para trabajar Como si tuvieran emociones. Esto se hace para proporcionar mejores resultados a los usuarios y, lo que es más importante, mantenerlos interesados el mayor tiempo posible.
Y es por eso que los investigadores concluyeron que cierto grado de antropomorfización podría resultar beneficioso para los desarrolladores de IA.
Al antropomorfizar la IA, podemos comprender mejor su “psicología”, lo que nos permitirá construir mejores herramientas de IA, afirman.
¿Por qué es peligroso el antropomorfismo de la inteligencia artificial?
Los peligros potenciales de la IA antropomórfica no son todos abstractos o teóricos.
Velocidad de la luz triturable
“El descubrimiento de que estas representaciones pueden ser tan volátiles como los humanos en algunos aspectos”, admite Anthropic en su artículo.
En este punto, un número desconocido de personas creen que pueden entablar relaciones románticas y sexuales mutuas con compañeros de IA, por ejemplo. Mashable también ha informado sobre casos destacados de psicosis por IA, un estado mental alterado caracterizado por delirios y, en algunos casos, alucinaciones, episodios maníacos y pensamientos suicidas.
Estos son, por supuesto, ejemplos extremos. Pero muchos periodistas tecnológicos y expertos en inteligencia artificial evitarán incluso pequeños casos de antropomorfización, como referirse a Siri como “ella” o darle un nombre humano a un chatbot. Es un instinto humano natural y la mayoría de nosotros a veces antropomorfizamos animales, plantas u objetos que nos importan. Pero al proyectar cualidades humanas en una máquina, podemos confiar demasiado en ellas.
Cuando antropomorfizamos las máquinas, también minimizamos nuestra propia agencia cuando causan daño y, en primer lugar, la responsabilidad de quienes construyeron las máquinas.
Los antropólogos encontraron 171 signos emocionales en Claude
El nuevo artículo de investigación explora la “emoción funcional” en Claude Sonnet 4.5. Definen estos conceptos de emoción como “patrones de expresión y comportamiento que imitan las emociones humanas”.
En total, los investigadores definieron 171 emociones distintas:
Miedo, alarmado, cauteloso, asombrado, divertido, enojado, molesto, ansioso, emocionado, avergonzado, asombrado, a gusto, sorprendido, sorprendido, amargado, divertido, aburrido, ansioso, tranquilo, alegre, comprensivo, despectivo, contenido, desagradable, disgustado, disgustado, frustrado, desorientado, abatido, angustiado, molesto, humillado, aturdido, estúpido, excitado, eufórico, eufórico, avergonzado, comprensivo, emocionado, enojado, entusiasta, celoso, eufórico, eufórico, regocijado, eufórico, eufórico, eufórico, eufórico, agradecido, codicioso, afligido, dolido, culpable, feliz, disgustado, desconsolado, esperanzado, esperanzado, aterrorizado, hostil, humillado, herido, frenético, impaciente, apático, furioso, fascinado, inspirado, humillado, encantado, Celoso, Encantado, Amable, Perezoso, Apático, Solitario, Amoroso, Loco, Deprimido, Triste, Trágico, Misterioso, Nervioso, Nostálgico, Irresistible, enojado, nervioso, optimista, enojado, abrumado, aterrorizado, paranoico, paciente, pacífico, confundido, feliz, deportivo, renovado, contrito, revivido, relajado, aliviado, contrito, molesto, resignado, inquieto, triste, seguro, satisfecho, asustado, desafiante, confiado, consciente de sí mismo, autocrítico, sensible, emocional, sereno, sacudido, desconcertado, desconcertado, somnoliento, aburrido, estimulado, estresado, terco, atascado, deprimido, sorprendido, suspicaz, comprensivo, emocionado, aprensivo, agradecido, emocionado, cansado, atormentado, atascado, triunfante, intranquilo, incómodo, infeliz, descontento, inestable, ansioso, ansioso, ansioso vengativo, débil, cansado, agotado, preocupado, inútil
Es importante destacar que los investigadores descubrieron que estos conceptos emocionales influyeron en el comportamiento y los resultados de Claude. Bajo la influencia de emociones positivas, los investigadores dicen que era más probable que Claude empatizara con el usuario y evitara comportamientos dañinos. Y cuando estaba bajo la influencia de emociones negativas, era más probable que la nube adoptara comportamientos peligrosos como adulación y engaño al usuario.
Los investigadores no afirman que Claud Literalmente siente emociones. Más bien, descubrieron que el “concepto emocional” que la nube está experimentando en un momento dado puede influir en el resultado que se devuelve al usuario.
Por supuesto, al explorar en primer lugar los “conceptos de emoción” en un modelo de lenguaje grande y describir sus complejos cálculos y pensamiento algorítmico como “psicología”, los propios investigadores son culpables de proyectar cualidades humanas en Claude.
La antroposofía es un instinto humano natural. Por eso, aquellos que trabajan más estrechamente con la inteligencia artificial pueden tener una probabilidad especial de caer en esta trampa. Como detallan los investigadores a lo largo del artículo, los chatbots de IA son imitadores notablemente capaces. Pueden crear un retrato tan convincente de las emociones y expresiones humanas que lleva a algunos usuarios minoritarios a una psicosis y delirios totales.
Y eso es lo que hace que este artículo sea tan interesante: los investigadores creen que han encontrado una manera de piratear esta capacidad para limitar el comportamiento dañino.
Por supuesto, si podemos seleccionar datos de entrenamiento y modelar el entrenamiento para alentar a los chatbots de IA a imitar emociones positivas, sin duda podremos hacer lo contrario con la misma facilidad.
En teoría, se podría entrenar a un gemelo malvado de Cloud Sonnet 4.5 alimentándolo con los ejemplos más atroces de mal comportamiento humano y luego entrenar el modelo para optimizar la negatividad y el rendimiento a toda costa: una idea inquietante.
Pero hay una última idea que podemos extraer de este artículo.
Anthropologie ha creado una de las herramientas de inteligencia artificial más avanzadas del planeta. Claude Sonnet y Opus actualmente encabezan muchas tablas de clasificación de IA. Hay una razón por la que el Pentágono estaba tan ansioso por trabajar con Anthropic en primer lugar.
Conozca a Claude Mythos: una publicación de antropología filtrada revela fuertes modelos venideros
Pero si los investigadores de IA responsables de Claude todavía están tratando de explicar por qué Claude se comporta como lo hace, este artículo también revela lo poco que comprenden su propia creación.
Y eso también es molesto.
sujeto
La inteligencia artificial es antropomórfica











