The Guardian ha revelado un importante giro derechista en el sentimiento sobre la inmigración entre los parlamentarios que han hablado en la Cámara de los Comunes durante los últimos cinco años.
Para llevar a cabo este análisis, los equipos de Ciencia de Datos y Proyecto de Datos de The Guardian, en colaboración con el University College London, desarrollaron un modelo interno de aprendizaje automático para medir el sentimiento lingüístico en los debates en los Comunes durante más de un siglo.
A diferencia del modelo de sentimiento estándar, la versión de The Guardian separa el sentimiento dirigido específicamente a la inmigración del lenguaje general cargado de emociones sobre cualquier tema.
El desarrollo del modelo implica los siguientes procesos:
Los investigadores utilizaron primero una lista de términos desencadenantes diseñados y verificados manualmente por expertos en historia de la inmigración para identificar discursos probables sobre la inmigración. Este proceso comprime los datos en una muestra manejable.
Para asegurarse de que los resultados no estuvieran sesgados por la elección de palabras clave, el equipo probó sus resultados, ejecutando el análisis varias veces con diferentes combinaciones de palabras y demostrando resultados similares independientemente de la combinación específica de términos.
Para crear el conjunto de datos en el que se entrenó el modelo de sentimiento, un equipo de 12 personas etiquetó manualmente durante un siglo más de 1250 discursos y contribuciones parlamentarios de hasta cinco oraciones cada uno.
Cuando el artículo trataba sobre inmigración, se marcaba como tal y luego se categorizaba como positivo, negativo o neutral. Las secciones no relacionadas con la migración se clasificaron como no relacionadas con la migración.
El equipo también evaluó el rendimiento de varios modelos de lenguaje grandes (una forma de inteligencia artificial) con el fin de etiquetar más fragmentos; Las pruebas estadísticas encontraron que su nivel de precisión era sólido.
El uso de IA en este proyecto se limitó al proceso de anotación, lo que aumentó el conjunto de datos de entrenamiento utilizado para construir el modelo de aprendizaje automático Guardian a más de 22.600 contribuciones parlamentarias anotadas durante el siglo pasado.
Luego, el modelo personalizado se aplicó a un siglo de debates y discursos sobre la Cámara de los Comunes, capturando alrededor de 238.000 artículos sobre inmigración entre 1925 y finales de 2025, asignando a cada uno una “etiqueta de sentimiento”.
La puntuación general del sentimiento para cada año se calculó utilizando sólo fragmentos relacionados con la inmigración (un discurso completo puede combinar fragmentos que no están relacionados con la inmigración). Luego se calculó una puntuación anual restando el número de fragmentos positivos de los negativos y dividiendo el resultado por el número de todos los fragmentos relacionados con la inmigración. Esto también se hizo por separado para los principales grupos destacados en el análisis.
El modelo se desarrolló para medir el sentimiento en el discurso parlamentario en su conjunto, no se utilizó para informar el sentimiento sobre las contribuciones individuales. El análisis también excluyó períodos para ciertos grupos en los que no hubo una contribución sustancial de la migración durante un período consecutivo.











