Investigación

GDELT y PLN: análisis económico y geopolítico

5 de noviembre de 2024 · 10 min

GDELT y PLN: análisis económico y geopolítico

En esta segunda parte de mi estudio sobre el uso de The GDELT Project, lo analizo desde la perspectiva de otros papers en economía, econometría, macroeconomía y geopolítica.

La predicción de indicadores macroeconómicos mejora con el uso de GDELT, como demuestran los estudios de Mohammed Elshendy y Andrea Fronzetti Colladon en Big Data Analysis of Economic News: Hints to Forecast Macroeconomic Indicators (2017): el número de noticias, su tono, la restricción de red de las naciones y las oscilaciones de su centralidad de intermediación son predictores importantes del PIB per cápita y de los índices de confianza empresarial y del consumidor.

Por el lado de BBVA Research destaca un mapa de flujos de refugiados (enero–noviembre 2015), consecuencia directa de la guerra de Siria en Europa, obtenido con datos de GDELT. También se ha usado Big Data para medir la percepción mediática de los mercados bursátiles chinos.

En Forecasting US Stock Price Movements Using Convolutional Neural Networks And News Sentiment From GDELT, el sentimiento extraído del GDELT Global Knowledge Graph 1.0 se utilizó para predecir movimientos del índice bursátil estadounidense, filtrando los datos por menciones de organizaciones en los artículos.

Un estudio sobre el mercado saudí (Predicting Saudi Stock Market Index by Incorporating GDELT Using Multivariate Time Series Modeling) incorporó las series temporales de Tone y Social Media Attention de GDELT (obtenidas vía Google BigQuery) para predecir el índice bursátil.

Aspectos metodológicos y desafíos

La integración de GDELT en modelos econométricos representa un avance significativo: incorpora variables únicas como el sentimiento de las noticias y la frecuencia de eventos económicos, dando una comprensión más matizada de los fenómenos macroeconómicos.

Procesamiento de Lenguaje Natural (PLN) y análisis de sentimiento: las técnicas de PLN son cruciales para convertir texto no estructurado en datos numéricos utilizables. Esto incluye algoritmos asistidos por diccionario para interpretar sentimiento (positivo/negativo, polarización), modelos dinámicos de tópicos como LDA (Latent Dirichlet Allocation) y STM (Structural Topic Model) para resumir textos en estructuras semánticas, y modelos de word embedding como Word2Vec y GloVe para entender palabras con significados similares o polisemia. Los Transformers y LLM (GPT-3, BERT, LLaMA, BARD, ChatGPT) representan un avance sin precedentes, capaces de generar textos coherentes y contextualmente relevantes, con foco en la predicción.

Análisis de redes: GDELT facilita el análisis de redes donde los nodos representan unidades (empresas, países) y las aristas indican relaciones (co-ocurrencia en noticias). Las medidas de centralidad —grado, cercanía e intermediación— se usan para evaluar el peso de cada nodo.

El gran volumen de información textual que procesa GDELT sería inmanejable sin herramientas de PLN. Como señala Análisis de la Geopolítica Mundial mediante IA del Ministerio de Defensa español: “gracias al desarrollo de modelos de PLN, el texto se ha convertido en una de las principales fuentes de información, y la capacidad de traducir ‘Text to Numbers’ se está convirtiendo en una potente herramienta analítica en ciencia política y relaciones internacionales.”

Evolución del análisis de sentimiento

Enfoques basados en diccionarios y reglas: herramientas como VADER han sido útiles para analizar textos cortos y coloquiales.

Modelos de machine learning: técnicas más sofisticadas como Topic Modeling (LDA) y Word Embeddings han permitido análisis más profundos y contextualizados. Recomiendo leer Economía, Mercados y Geopolítica: el papel de los modelos de lenguaje natural en las ciencias sociales, de Alvaro Ortiz y Tomasa Rodrigo, en Predicción y decisiones económicas con Big Data (Funcas).

Transformers y LLM: modelos como GPT-3, BERT, LLaMA o BARD “representan el estado del arte actual en el análisis de texto en ciencias sociales, comprendiendo y analizando profundamente el lenguaje humano”. Interpretan matices, contextos y sentimientos con precisión sin precedentes.

Retos críticos en la era del Big Data

Calidad de los datos: repositorios como GDELT contienen ruido; hay que ponderar la importancia de cada noticia.

Sesgo: siempre estará presente; se recomienda entrenar un modelo propio con datos anotados antes que usar un LLM para anotar.

Ambigüedad de contexto: ignorar el orden de las palabras dificulta entender la ironía o el sarcasmo.

Interpretabilidad humana y diccionarios específicos (evitar generalizaciones) son también frentes abiertos.

Cierre

La integración de IA y PLN en el análisis económico y geopolítico está transformando la forma en que entendemos el mundo. Los proyectos con GDELT permiten generar indicadores en tiempo real de incertidumbre política, tensiones geoestratégicas y sectores clave como los semiconductores. Pero este progreso exige abordar los sesgos, reforzar la transparencia y establecer marcos regulatorios robustos. La IA debe apoyar con rigor al juicio humano, no reemplazarlo. Su uso responsable será clave para anticipar y responder mejor a los grandes desafíos globales.