Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado
| dc.audience | Todo Público | |
| dc.contributor.advisor | Ordóñez, José Armando | |
| dc.contributor.author | Castro Salamanca, Larry Farid | |
| dc.contributor.author | López, Juan Esteban | |
| dc.coverage.spatial | Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees. | |
| dc.date.accessioned | 2026-03-09T22:00:12Z | |
| dc.date.available | 2026-03-09T22:00:12Z | |
| dc.date.issued | 2023-07-10 | |
| dc.description.abstract | Este trabajo de grado desarrolla un modelo de aprendizaje supervisado para la detección temprana de Diabetes Mellitus Tipo 2 en poblaciones vulnerables del suroccidente colombiano. Utilizando la metodología CRISP-DM, se analizaron datos no clínicos (sociales y ambientales) de una EPS del régimen subsidiado. Debido al fuerte desbalance de clases (6.3% de prevalencia), se aplicaron técnicas de muestreo como SMOTE y Undersampling, priorizando la sensibilidad (recall) como métrica principal. Los resultados demuestran que algoritmos como Naive Bayes y XGBoost (con técnicas de muestreo) logran un equilibrio entre exactitud y sensibilidad, ofreciendo una alternativa eficiente y de bajo costo para la gestión del riesgo en zonas rurales de difícil acceso. | spa |
| dc.description.abstract | This thesis develops a supervised learning model for the early detection of Type 2 Diabetes Mellitus in vulnerable populations in southwestern Colombia. Using the CRISP-DM methodology, non-clinical data (social and environmental) from a subsidized health regime (EPS) were analyzed. Given the severe class imbalance (6.3% prevalence), sampling techniques such as SMOTE and Undersampling were applied, prioritizing recall as the key performance metric. The results show that algorithms like Naive Bayes and XGBoost (combined with sampling) achieve a balance between accuracy and sensitivity, providing a cost-effective alternative for risk management in remote rural areas with limited clinical logistics. | eng |
| dc.description.degreelevel | Magíster | |
| dc.description.degreename | Trabajo de grado para optar al título de Magister en Ciencia de Datos | |
| dc.description.tableofcontents | RESUMEN -- 1. PROBLEMA DE INVESTIGACIÓN -- 1.1 Contexto -- Antecedentes y Justificación -- 1.2 Planteamiento del Problema -- 1.3 Pregunta de investigación -- 2. OBJETIVOS -- 2.1 Objetivo General -- 2.2 Objetivos Específicos -- 3. REVISIÓN BIBLIOGRÁFICA -- 3.1 Marco Teórico -- 3.1.1 Dominio del Problema -- 3.1.2 Dominio de la Solución -- 3.2 Estado del Arte -- 3.2.1 Trabajos seleccionados -- 3.2.1.1 Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey -- (Sharma & Singh -- 2019) -- 3.2.1.2 Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice (Hajjaj -- Salek -- Basra -- & Finlay -- 2010) -- 3.2.1.3 Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - Clinical Parameters (Mathew & Sher ly -- 2018) -- 3.2.1.4 Low - Cost Method for Multiple Disease Prediction (Bayati -- Bhaskar -- & Montanari -- 2015) -- 3.2.1.5 A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations (Srivastava -- Kumar -- Fore -- & Tomar -- 2021) -- 3.2.1.6 Prediction of Diabetes based on environmental and socioeconomic information (Mejía -- Oviedo -- Ordonez -- & Valencia -- 2022) -- 3.2.2 Matriz de comparación -- 3.2.3 Conclusiones del estado del arte -- 3.3 Modelos Predictivos / Clasificación -- 3.3.1 KNN – K - Nearest - Neighbor -- 3.3.2 Árboles de Decisión – Decision Tree -- 3.3.3 Bosques Aleatorios – Random Forest -- 3.3.4 Naive Bayes -- 3.3.5 Regresión Logística -- 3.3.6 Gradient Boosting -- 3.3.7 eXtreme Gradient Boosting -- 3.3.8 Multi Layer Perceptron -- 4. METODOLOGÍA -- 5. PRESENTACIÓN DEL TRABAJO DE INVESTIGACIÓN (METODOLOGÍA PROPUESTA) -- 5.1 Entendimiento de los datos -- 5.1.1 Recolección y descripción de los datos -- 5.1.2 Análisis Exploratorio de los datos -- 5.1.2.1 Usuarios no afiliados a la EPS -- 5.1.2.2 Caracterización de la población objeto de estudio -- 5.1.2.3 Revisión e identificación de variables no clínicas que pueden influir en la DMT2 -- 5.2 Preparación de los datos -- 5.2.1 Ajuste de tipo de datos y valores de variables -- 5.2.2 Creación de variables y escalado de variables numéricas -- 5.2.3 Variables de entrada identificadas para la detección de DMT2 -- 5.2.4 Codificación de las variables categóricas con más de una categoría -- 5.2.4.1 Codificación one - hot -- 5.2.5 Selección de Variables aplicando Regresión Logística con penalización Lasso -- 5.3 Modelado -- 5.3.1 Descripción de la función de optimización bayesiana -- 5.3.2 Hiperparámetros empleados -- 5.3.3 Desbalance de clases -- 5.3.3.1 Submuestreo Aleatorio (Undersampling) -- 5.3.3.2 Sobremuestreo Aleatorio (Oversampling) -- 5.3.3.3 Smote -- 5.3.3.4 Smote - tomek -- 5.4 Evaluación -- 5.4.1 Exactitud (Accuracy) -- 5.4.2 Sensibilidad (Recall) -- 5.4.3 F1 - Score -- 5.4.4 ROC - AUC -- 6. PRESENTACIÓN Y ANÁLISIS DE RESULTADOS -- 6.1 Escenario 1: Aplicación de algoritmos con métodos de muestreo sobre el total de la base de datos -- 6.1.1 Resultados con datos limpios sin balance de clases -- 6.1.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.1.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.1.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.1.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 6.2 Escenario 2: Aplicación de algoritmos con métodos de muestreo sobre la base de datos después de selección de variables con regularización Lasso -- 6.2.1 Resultados con datos limpios sin balance de clases -- 6.2.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.2.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.2.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.2.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 7. CONCLUSIONES -- 8. RECOMENDACIONES Y ESTUDIOS FUTUROS -- BIBLIOGRAFÍA -- ANEXOS -- LISTA DE TABLAS -- LISTA DE ILUSTRACIONES. | spa |
| dc.format.extent | 96 páginas | |
| dc.format.medium | Digital | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.OLIB | https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366461 | |
| dc.identifier.instname | instname:Universidad Icesi | |
| dc.identifier.reponame | reponame:Biblioteca Digital | |
| dc.identifier.repourl | repourl:https://repository.icesi.edu.co/ | |
| dc.identifier.uri | https://hdl.handle.net/10906/130587 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Icesi | |
| dc.publisher.faculty | Barberi de Ingeniería, Diseño y Ciencias Aplicadas | |
| dc.publisher.place | Santiago de Cali | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.relation.references | Ahmed Osman, A., Ahmed, A., Chow, M., & Huang, Y. (2021). Extreme gradient boosting (Xgboost) model to predict the groundwater. Ain Shams Engineering Journal. doi:https://doi.org/10.1016/j.asej.2020.11.011 | spa |
| dc.relation.references | Avilés - Santa, M. L., Monroig - Rivera, A., Soto - Soto , A., & Lindberg, N. M. (2020). Current State of Diabetes Mellitus Prevalence, Awareness, Treatment, and Control in Latin America: Challenges and Innovative Solutions to Improve Health Outcomes Across the Continent. Springer Nature. doi:https://doi.org/10. 1007/s11892 - 020 - 01341 - 9 | spa |
| dc.relation.references | Bayati, M., Bhaskar, S., & Montanari, A. (2015). A Low - Cost Method for Multiple Disease Prediction. AMIA Annu Symp Proc. | spa |
| dc.relation.references | Breiman, L. (2001). Random Forests. Kluwer Academic Publishers. Manufactured in The Netherlands. | spa |
| dc.relation.references | Castrillón, O. D., Sarache, W., & Castaño, E. (2017, Diciembre). Sistema bayesiano para la predicción de la diabetes. Inf. Tecnol, vol 28, 161 - 168. | spa |
| dc.relation.references | Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP - DM 1.0. Step - by - st ep data mining guide. SPSS Inc. doi:https://doi.org/10.1017/CBO9781107415324.004 | spa |
| dc.relation.references | Chawla, N. (2010). Data Mining and Knowledge Discovery Handbook - Data Mining for Imbalanced Datasets: An Overview. Boston: Springer, Boston, MA. doi:https://doi.org/10.1007/9 78 - 0 - 387 - 09823 - 4_45 | spa |
| dc.relation.references | Cohen, J., Cohen, P., West, S., & Aiken, L. (2013). Applied multiple regression/correlation analysis for the behavioral sciences. New York: Routledge. doi:https://doi.org/10.4324/9780203774441 | spa |
| dc.relation.references | El - Sappagh, S., Ali, F., El - Masri, S., Kim, K., Ali, A., & Kwak, S. (2019). Mobile Health Technologies for Diabetes Mellitus: Current State and Future Challenges. doi:10.1109/ACCESS.2018.2881001 | spa |
| dc.relation.references | Fezeka Swana, E., Doorsamy, W., & Bokoro, P. (2022). Tomek Link and SMOTE Approaches for Machine Fault C lassification with an Imbalanced Dataset. MDPI - Academic Open Access Publishing. doi:https://doi.org/10.3390/s22093246 | spa |
| dc.relation.references | Fondo Colombiano de Enfermedades de Alto Costo. (2022). Infografía Día Mundial de la Diabetes. Obtenido de https://cuentadealtocosto.org /site/general/dia - mundial - de - la - diabetes - 2022/ | spa |
| dc.relation.references | Gardner, M., & Dorling, S. (1998). Artificial neural networks (the multilayer perceptron) — a review of applications in the atmospheric sciences. Atmospheric Environment. doi:https://doi.org/10.1016/S1352 - 2310(9 7)00447 - 0 | spa |
| dc.relation.references | Gómez - Encino, G. d., Cruz - León, A., Zapata - Vázquez, R., & Morales - Ramón, F. (2015). Nivel de conocimiento que tienen los pacientes con Diabetes Mellitus tipo 2 en relación a su enfermedad. Salud en Tabasco, 17 - 25. | spa |
| dc.relation.references | Hajjaj, F., Salek, M., Basra, M ., & Finlay, A. (2010). Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice. In Journal of the Royal Society of Medicine, (Vol. 103, Issue 5, pp. 178 – 187). | spa |
| dc.relation.references | Han, J., Rodriguez, J. C., & Beheshti, M. (2008). Diab etes data analysis and prediction model discovery using rapidminer. 2008 Second International Conference on Future Generation Communication and Networking, 96 - 99. doi:10.1109/FGCN.2008.226 | spa |
| dc.relation.references | Hong Chen, Songhua Hu, Rui Hua, & Xiuju Zhao. (2021). Improved naiv e Bayes classification algorithm for traffic risk management. EURASIP Journal on Advances in Signal Processing. doi:https://doi.org/10.1186/s13634 - 021 - 00742 - 6 | spa |
| dc.relation.references | Jacobs - Basadien, M., Pather, S., & Petersen, F. (2022). The role of culture in the adoption of mo bile applications for the self - management of diabetes in low resourced urban communities. Obtenido de https://nebulosa.icesi.edu.co:2144/10.1007/s10209 - 022 - 00951 - 2 | spa |
| dc.relation.references | Kotsiantis, S., Kanellopoulos, D., & Pintelas, P. (2006). Handling imbalanced datasets: A review. GESTS International Transactions on Computer Science and Engineering. | spa |
| dc.relation.references | Leiva, A. M., Martínez, M. A., Petermann, F., Garrido Méndez, A., Poblete Valderrama, F. , Díaz Martínez, X., & Celis Morales, C. (2018). Risk factors associated with type 2 diabetes in Chile. Nutrición Hospitalaria, 35 (2), 400 - 407. doi:https://dx.doi.org/10.20960/nh.1434 | spa |
| dc.relation.references | Martínez Pérez, J., & Pérez Martin, P. (2022). La curva ROC. Elservier. doi:10.1016/j.semerg.2022.101821 | spa |
| dc.relation.references | Mathew, T. J., & Sherly, E. (2018). Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - clinical Parameters. 2018 International CET Conference on Control, Communication, and Computing (IC4). | spa |
| dc.relation.references | Mejía, J., Oviedo, M., Ordonez, A., & Valencia, J. F. (2022). Prediction of Diabetes based on environmental and socioeconomic information. | spa |
| dc.relation.references | Ministerio de Salud y Protección Social. (2021, 10 18). Ministerio de Salud y Protección Social. Retrieved from Ministerio de Salud y Protección Social: https://www.minsalud.gov.co/Paginas/Prevenir - la - diabetes - clave - desde - los - habitos - saludables.aspx | spa |
| dc.relation.references | Mohammed, R., Rawashdeh, J., & Abdullah, M. (2020). Machine Learning with Oversampling and Undersampling Techniques: Overview Study and Experimental Results. ResearchGate. doi:10.1109/ICICS49469.2020.239556 | spa |
| dc.relation.references | Natekin, A., & Knoll, A. (2013). Gradient boosting machines, a tutorial. Frontiers in Neurorobotics. doi:doi: 10.3389/fnbot.2013.00021 | spa |
| dc.relation.references | Organización Mundial de la Salud. (2016). Informe Mundial sobre la Diabetes. Ginebra: Se reservan todos los derechos. | spa |
| dc.relation.references | Organización Panamericana de la Salud. (2020). Diagnóstico y manejo de la diabetes de tipo 2 (HEARTS - D). Pan American Health Organization. (2022). Panorama of Diabetes in the Americas. Washington D.C. | spa |
| dc.relation.references | Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., . . . Duchesnay, É. (s.f.). Scikit - learn: Machine Learning in Python. Obtenido de Journal of Machine Learning Research: http://jml r.org/papers/v12/pedregosa11a.html | spa |
| dc.relation.references | Pérez - Gandía, C. (Marzo de 2014). Propuesta de algoritmos de predicción de glucosa en pacientes diabéticos. Madrid. | spa |
| dc.relation.references | Rajaguru, H., & Chakravarthy, S. (2019). Analysis of Decision Tree and K - Nearest Neighbor Algorithm in t he Classification of Breast Cancer. Asian Pac J Cancer Prev. doi:10.31557/APJCP.2019.20.12.3777 | spa |
| dc.relation.references | Ramón, A., Torres, A., Milara, J., Cascón, J., Blasco, P., & Mateo, J. (2022). eXtreme Gradient Boosting - based method to classify patients with COVID - 19. Journa l of Investigative Medicine. doi:http://dx.doi.org/10.1136/jim - 2021 - 002278 | spa |
| dc.relation.references | Raschka, S., & Mirjalili, V. (2019). Python Machine Learning. Aprendizaje automático y aprendizaje profundo con Python, scikit - learn y TensorFlow. MARCOMBO, S.A. | spa |
| dc.relation.references | Rocha Íñigo, A. (20 20). Codificación de variables categóricas en aprendizaje automático. Tesis Máster, Universidad de Sevilla, Depto. de Ingeniería de Sistemas y Automática, Sevilla. Obtenido de https://idus.us.es/bitstream/handle/11441/108887/M1909%20Rocha%20%c3%8d%c3%b 1igo %2c%20Adri%c3%a1n.pdf?sequence=1&isAllowed=y | spa |
| dc.relation.references | Saria, S., Rajani, A. K., Gould, J., Koller, D., & Penn, A. A. (2010). Integration of early physiological responses predicts later illness severity in preterm infants. Science Translational Medicine. , 2(48):48ra 65. doi:10.1126/scitranslmed.3001304 | spa |
| dc.relation.references | Sharma, N., & Singh, A. (2019). Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey. Springer Singapore. | spa |
| dc.relation.references | Snoek, J., Larochelle, H., & Adams, R. (2012). Practical Bayesian Optimization of Machine Learn ing Algorithms. Advances in Neural Information Processing Systems. doi:https://doi.org/10.48550/arXiv.1206.2944 | spa |
| dc.relation.references | Song, X., Mitnitski, A., Cox, J., & Rockwood, K. (2004). Comparison of machine learning techniques with classical statistical models in predicti ng health outcomes. Stud Health Technol Inform. Stud Health Technol Inform., 107(Pt 1):736 - 40. | spa |
| dc.relation.references | Song, Y. - y., & Lu, Y. (2015). Decision tree methods: applications for classification. Shanghai Arch Psychiatry. doi:10.11919/j.issn.1002 - 0829.215044 | spa |
| dc.relation.references | Srivastava, R., Kumar, S., Fore, V., & Tomar, R. (2021). A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations. Springer Nature Switzerland AG, 116 – 124. doi:https://doi.org/10.1007/978 - 3 - 030 - 88244 - 0_12 | spa |
| dc.relation.references | Villalobos, A., Rojas - Martínez, R., Aguilar - Salinas, C. A., Romero - Martínez, M., Mendoza - Alvarado, L. R., Flores - Luna, M. d., . . . Ávila - Burgos, L. (2019). Atención médica y acciones de autocuidado en personas que viven con diabetes, segú n nivel socioecnómico. Salud Publica Mex., 876 - 887. | spa |
| dc.relation.references | Zapeta Hernández, A., Galindo Rosales, G., Juan Santiago, H., & Martínez Lee, M. (2022). Métricas de rendimiento para evaluar el aprendizaje automático en la clasificación de imágenes petroleras utilizand o redes neuronales convolucionales. Ciencia Latina Revista Científica Multidisciplinar. doi:https://doi.org/10.37811/cl_rcm.v6i5.3420 | spa |
| dc.rights | EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.subject.proposal | Diabetes Mellitus | spa |
| dc.subject.proposal | Variables No Clínicas | spa |
| dc.subject.proposal | Machine Learning | spa |
| dc.subject.proposal | Balance de Clases | spa |
| dc.subject.proposal | Modelo de Predicción | spa |
| dc.subject.proposal | Diabetes Mellitus | eng |
| dc.subject.proposal | Non-Clinical Variables | eng |
| dc.subject.proposal | Machine Learning | eng |
| dc.subject.proposal | Class Balance | eng |
| dc.subject.proposal | Prediction Model | eng |
| dc.subject.proposal | Tesis de Maestría en Ciencia de Datos | spa |
| dc.title | Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.coarversion | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |
| dc.type.driver | info:eu-repo/semantics/masterThesis | |
| dc.type.local | Tesis de maestría | |
| dc.type.version | info:eu-repo/semantics/publishedVersion |
