Modelo para la detección de noticias falsas en formato texto en la red social Twitter, aplicado al contexto político colombiano de las elecciones presidenciales de 2022.

Montaño Morcillo, Juan Gabriel; Flores Quinayás, Jesús Eduardo

Modelo para la detección de noticias falsas en formato texto en la red social Twitter, aplicado al contexto político colombiano de las elecciones presidenciales de 2022.

Files

T02444.pdf (1.7 MB)

Date

2022-01-01

Authors

Montaño Morcillo, Juan Gabriel

Flores Quinayás, Jesús Eduardo

Thesis Director / Advisor

Sosa Aguirre, Uram Aníbal

Aristizábal, Andrés

Publisher

Universidad Icesi

Documentos PDF

Resumen

En este trabajo de grado, se formuló una propuesta para abordar la ausencia de modelos de detección de noticias falsas en el contexto político colombiano en la red social Twitter. Para desarrollarlo se tomó como referencia la metodología CRISP-DM que considera seis fases para su desarrollo, estas fases fueron: entendimiento del negocio, entendimiento de los datos, preparación de los datos, modelamiento, evaluación y despliegue. Los modelos, técnicas y herramientas de la ciencia de datos utilizados para abordar la solución del problema fueron: Random Forest, Naive Bayes, Support Vector Classifier, Regresión Logística, XG-Boost, redes neuronales tradicionales y modelos basados en atención como BERT. De los resultados obtenidos en el entrenamiento de los modelos de analítica utilizando modelos tradicionales y BERT, se alcanzó un accuracy de 0.88 y 0.95 respectivamente para el corpus creado en el contexto político colombiano. El uso de las aproximaciones por modelos tradicionales y los modelos de atención con BERT permitió comparar el comportamiento en el desempeño del proceso de la clasificación de noticias, mostrando que con BERT se obtienen mejores resultados. La validación a la que fue sometida la propuesta consistió en la realización de varios experimentos con dos corpus de noticias diferentes; el primero fue el creado en el proyecto con noticias colombianas y el segundo lo conformó la combinación del corpus de noticias colombianas con dos corpus adicionales de contextos diferentes al colombiano. En las validaciones se realizaron ajustes de parámetros e hiperparámetros buscando obtener mejores resultados en el proceso de clasificación de noticias falsas. Finalmente, después del trabajo desarrollado y de las validaciones realizadas se logró formular un modelo de analítica capaz de detectar noticias falsas en el contexto político colombiano con un buen nivel de desempeño, validando de esta manera que el enfoque de la solución propuesto y la metodología empleada permitieron obtener resultados válidos.

Palabras clave

Redes socialesTwitterDetecciónNoticias falsasElecciones presidencialesProcesamiento de lenguaje natural (Computación)Aprendizaje automático (Inteligencia artificial)Análisis de datosTésisIngenieríasDepartamento Tecnologías de Información y Comunicaciones