Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado

Castro Salamanca, Larry FaridLópez, Juan EstebanModelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiadoUniversidad Icesi2023Diabetes MellitusVariables No ClínicasMachine LearningBalance de ClasesModelo de PredicciónDiabetes MellitusNon-Clinical VariablesMachine LearningClass BalancePrediction ModelTesis de Maestría en Ciencia de DatosMy UniversityMy UniversityOrdóñez, José Armando2026-03-092026-03-092023-07-10spamaster thesishttps://hdl.handle.net/10906/130587https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366461instname:Universidad Icesireponame:Biblioteca Digitalrepourl:https://repository.icesi.edu.co/96 páginasDigitalapplication/pdfEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Este trabajo de grado desarrolla un modelo de aprendizaje supervisado para la detección temprana de Diabetes Mellitus Tipo 2 en poblaciones vulnerables del suroccidente colombiano. Utilizando la metodología CRISP-DM, se analizaron datos no clínicos (sociales y ambientales) de una EPS del régimen subsidiado. Debido al fuerte desbalance de clases (6.3% de prevalencia), se aplicaron técnicas de muestreo como SMOTE y Undersampling, priorizando la sensibilidad (recall) como métrica principal. Los resultados demuestran que algoritmos como Naive Bayes y XGBoost (con técnicas de muestreo) logran un equilibrio entre exactitud y sensibilidad, ofreciendo una alternativa eficiente y de bajo costo para la gestión del riesgo en zonas rurales de difícil acceso.This thesis develops a supervised learning model for the early detection of Type 2 Diabetes Mellitus in vulnerable populations in southwestern Colombia. Using the CRISP-DM methodology, non-clinical data (social and environmental) from a subsidized health regime (EPS) were analyzed. Given the severe class imbalance (6.3% prevalence), sampling techniques such as SMOTE and Undersampling were applied, prioritizing recall as the key performance metric. The results show that algorithms like Naive Bayes and XGBoost (combined with sampling) achieve a balance between accuracy and sensitivity, providing a cost-effective alternative for risk management in remote rural areas with limited clinical logistics.RESUMEN -- 1. PROBLEMA DE INVESTIGACIÓN -- 1.1 Contexto -- Antecedentes y Justificación -- 1.2 Planteamiento del Problema -- 1.3 Pregunta de investigación -- 2. OBJETIVOS -- 2.1 Objetivo General -- 2.2 Objetivos Específicos -- 3. REVISIÓN BIBLIOGRÁFICA -- 3.1 Marco Teórico -- 3.1.1 Dominio del Problema -- 3.1.2 Dominio de la Solución -- 3.2 Estado del Arte -- 3.2.1 Trabajos seleccionados -- 3.2.1.1 Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey -- (Sharma & Singh -- 2019) -- 3.2.1.2 Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice (Hajjaj -- Salek -- Basra -- & Finlay -- 2010) -- 3.2.1.3 Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - Clinical Parameters (Mathew & Sher ly -- 2018) -- 3.2.1.4 Low - Cost Method for Multiple Disease Prediction (Bayati -- Bhaskar -- & Montanari -- 2015) -- 3.2.1.5 A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations (Srivastava -- Kumar -- Fore -- & Tomar -- 2021) -- 3.2.1.6 Prediction of Diabetes based on environmental and socioeconomic information (Mejía -- Oviedo -- Ordonez -- & Valencia -- 2022) -- 3.2.2 Matriz de comparación -- 3.2.3 Conclusiones del estado del arte -- 3.3 Modelos Predictivos / Clasificación -- 3.3.1 KNN – K - Nearest - Neighbor -- 3.3.2 Árboles de Decisión – Decision Tree -- 3.3.3 Bosques Aleatorios – Random Forest -- 3.3.4 Naive Bayes -- 3.3.5 Regresión Logística -- 3.3.6 Gradient Boosting -- 3.3.7 eXtreme Gradient Boosting -- 3.3.8 Multi Layer Perceptron -- 4. METODOLOGÍA -- 5. PRESENTACIÓN DEL TRABAJO DE INVESTIGACIÓN (METODOLOGÍA PROPUESTA) -- 5.1 Entendimiento de los datos -- 5.1.1 Recolección y descripción de los datos -- 5.1.2 Análisis Exploratorio de los datos -- 5.1.2.1 Usuarios no afiliados a la EPS -- 5.1.2.2 Caracterización de la población objeto de estudio -- 5.1.2.3 Revisión e identificación de variables no clínicas que pueden influir en la DMT2 -- 5.2 Preparación de los datos -- 5.2.1 Ajuste de tipo de datos y valores de variables -- 5.2.2 Creación de variables y escalado de variables numéricas -- 5.2.3 Variables de entrada identificadas para la detección de DMT2 -- 5.2.4 Codificación de las variables categóricas con más de una categoría -- 5.2.4.1 Codificación one - hot -- 5.2.5 Selección de Variables aplicando Regresión Logística con penalización Lasso -- 5.3 Modelado -- 5.3.1 Descripción de la función de optimización bayesiana -- 5.3.2 Hiperparámetros empleados -- 5.3.3 Desbalance de clases -- 5.3.3.1 Submuestreo Aleatorio (Undersampling) -- 5.3.3.2 Sobremuestreo Aleatorio (Oversampling) -- 5.3.3.3 Smote -- 5.3.3.4 Smote - tomek -- 5.4 Evaluación -- 5.4.1 Exactitud (Accuracy) -- 5.4.2 Sensibilidad (Recall) -- 5.4.3 F1 - Score -- 5.4.4 ROC - AUC -- 6. PRESENTACIÓN Y ANÁLISIS DE RESULTADOS -- 6.1 Escenario 1: Aplicación de algoritmos con métodos de muestreo sobre el total de la base de datos -- 6.1.1 Resultados con datos limpios sin balance de clases -- 6.1.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.1.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.1.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.1.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 6.2 Escenario 2: Aplicación de algoritmos con métodos de muestreo sobre la base de datos después de selección de variables con regularización Lasso -- 6.2.1 Resultados con datos limpios sin balance de clases -- 6.2.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.2.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.2.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.2.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 7. CONCLUSIONES -- 8. RECOMENDACIONES Y ESTUDIOS FUTUROS -- BIBLIOGRAFÍA -- ANEXOS -- LISTA DE TABLAS -- LISTA DE ILUSTRACIONES.