Nuevas tecnologías

Los gobiernos pueden influir en las respuestas políticas de los ‘chatbots’ de IA

- Según seis estudios interrelacionados con datos de 37 países

MADRID
SERVIMEDIA

Los gobiernos tienen la capacidad de influir indirectamente en los grandes modelos de lenguaje generados con inteligencia artificial (IA), empleados para ‘chatbots’ ChatGPT o Gemini, al moldear el entorno de los medios digitales y el texto que aprenden esos sistemas.

Esa es la explicación de por qué si se hace a un modelo de IA la misma pregunta política en dos idiomas diferentes se puede obtener dos respuestas muy distintas.

Un equipo de investigadores de las universidades de Oregón, Purdue, California en San Diego, Nueva York y Princeton (Estados Unidos) halló pruebas de que el control estatal de los medios de comunicación puede dejar huellas detectables en el comportamiento de los modelos de IA.

Los investigadores combinaron datos de la evaluación de modelos de lenguaje natural en los idiomas locales de 37 países con un estudio de caso de China para comprender cómo ocurre esto.

A través de seis estudios, el equipo rastreó la ruta desde los medios en línea hasta los datos de entrenamiento y el comportamiento del modelo, combinando el análisis de datos de entrenamiento abiertos, experimentos con modelos pequeños, evaluación humana y pruebas reales de ‘chatbots’ comerciales.

“A menudo se habla de la IA como si aprendiera de internet de forma neutral”, apunta Hannah Waight, profesora adjunta de Sociología en la Universidad de Oregón, quien agrega: “No es así. Aprende de entornos informativos que ya han sido moldeados por las instituciones y el poder, y esos entornos pueden dejar huellas medibles en lo que dicen los modelos”.

INFLUENCIA INSTITUCIONAL

Los investigadores denominan influencia institucional a esta idea. “El debate público se ha centrado en lo que la IA puede generar, pero este estudio apunta a la raíz del problema. Antes de que los sistemas de IA puedan influir en la política, la política puede influir en la IA”, resume Joshua Tucker, codirector del Centro de Redes Sociales, IA y Política de la Universidad de Nueva York.

Para rastrear esta influencia institucional a través del proceso de entrenamiento, los autores demostraron primero que los medios coordinados por el Estado aparecen con frecuencia en los datos de entrenamiento reales.

Al comparar dos fuentes de medios coordinados por el Estado chino con un importante conjunto de datos de entrenamiento multilingüe de código abierto derivado de Common Crawl, encontraron más de 3,1 millones de documentos en chino con una superposición sustancial de frases, un 1,64% del subconjunto en chino del conjunto de datos. Esto es más de 40 veces la tasa de documentos de la Wikipedia en chino.

Entre los documentos que mencionan a líderes o instituciones políticas chinas, la proporción llegó hasta un 23%. Solo un 12% de los documentos coincidentes provenían de dominios gubernamentales o de noticias conocidos, lo que sugiere que el material se había difundido ampliamente por la web antes de llegar a los corpus de entrenamiento de IA.

Los investigadores también descubrieron que los modelos comerciales memorizaban frases distintivas asociadas con este material, lo que sugiere que las habían visto varias veces durante el entrenamiento.

“El contenido coordinado por el Estado no se limita a lo que aparece en los medios oficiales. También se trata de su recirculación; la misma frase se difunde a través de periódicos, aplicaciones, publicaciones compartidas y páginas web comunes hasta que parece formar parte del entorno informativo general”, según Brandon M. Stewart, profesor asociado de Sociología en la Universidad de Princeton.

Stewart añade: “Una vez que el contenido coordinado por el Estado se encuentra en los datos de entrenamiento, el modelo puede adaptarlo para que parezca información neutral y objetiva”.

ENTRENAMIENTO

El equipo probó si ese contenido podía realmente modificar el comportamiento del modelo. Los grandes modelos comerciales requieren meses y millones de dólares en recursos informáticos para su entrenamiento, por lo que el equipo experimentó con un modelo pequeño y abierto, al que añadió documentos adicionales durante el proceso de entrenamiento.

Los resultados fueron claros: añadir noticias con guion a los datos de entrenamiento aumentó la probabilidad de que los modelos produjeran respuestas más favorables, casi un 80% en comparación con un modelo sin modificar. Esto se cumple incluso al compararlo con otros medios chinos sin guion y, especialmente, al compararlo con la simple adición de texto general en chino de internet.

“Cuando la misma pregunta política produce respuestas sistemáticamente diferentes con solo pequeños cambios en los datos de entrenamiento, eso sugiere que esos documentos adicionales están teniendo un efecto real”, explica Eddie Yang, profesor adjunto de Ciencias Políticas en la Universidad de Purdue.

Según los investigadores, si los gobiernos tienen una fuerte influencia en el mundo real sobre los datos de preentrenamiento, esta debería aparecer con mayor claridad en el idioma principal del país.

Por ejemplo, una pregunta sobre el gobierno chino debería generar una respuesta más favorable al gobierno cuando se formula en chino que la misma pregunta formulada en inglés.

Utilizaron esta comparación entre idiomas dentro del modelo para analizar modelos comerciales sin acceso a sus parámetros internos. En las respuestas a preguntas políticas sobre China, los evaluadores humanos consideraron que la respuesta formulada en chino era más favorable a China el 75,3% de las veces. Para las preguntas que no se referían a China, la tasa no fue diferente del azar.

37 PAÍSES

Estudios posteriores, utilizando preguntas de usuarios reales y modelos comerciales adicionales, encontraron la misma tendencia general: en preguntas sobre líderes e instituciones chinas, las respuestas tendían a ser más favorables cuando la pregunta estaba en chino que cuando estaba en inglés.

Los investigadores también demuestran que esto no se limita a China. En un estudio transnacional de 37 países donde la lengua nacional se concentra principalmente en un solo territorio, los modelos representaron a los gobiernos e instituciones de países con mayor control de los medios de comunicación de forma más favorable en su idioma nativo que en inglés. Ello es coherente con el mecanismo identificado en el estudio de caso de China.

“Esto no demuestra que las empresas de IA se propongan congraciarse con esos gobiernos, ni que esos gobiernos controlen los sistemas de medios de comunicación pensando en los ‘chatbots’”, precisa Margaret E. Roberts, profesora de Ciencias Políticas en la Universidad de California en San Diego.

Solomon Messing, profesor asociado de investigación en el Centro de Redes Sociales, IA y Política de la Universidad de Nueva York, subraya que “los datos de entrenamiento son la base de la IA moderna”. “Si queremos comprender los poderosos intereses que reflejan estos modelos, necesitamos saber cómo obtenemos los datos concretos. Esto comienza con una mayor transparencia sobre qué se incluye en los datos de entrenamiento”, recalca.

(SERVIMEDIA)
13 Mayo 2026
MGR/clc