Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado

Castro Salamanca, Larry Farid; López, Juan Esteban

Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado

dc.audience	Todo Público
dc.contributor.advisor	Ordóñez, José Armando
dc.contributor.author	Castro Salamanca, Larry Farid
dc.contributor.author	López, Juan Esteban
dc.coverage.spatial	Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned	2026-03-09T22:00:12Z
dc.date.available	2026-03-09T22:00:12Z
dc.date.issued	2023-07-10
dc.description.abstract	Este trabajo de grado desarrolla un modelo de aprendizaje supervisado para la detección temprana de Diabetes Mellitus Tipo 2 en poblaciones vulnerables del suroccidente colombiano. Utilizando la metodología CRISP-DM, se analizaron datos no clínicos (sociales y ambientales) de una EPS del régimen subsidiado. Debido al fuerte desbalance de clases (6.3% de prevalencia), se aplicaron técnicas de muestreo como SMOTE y Undersampling, priorizando la sensibilidad (recall) como métrica principal. Los resultados demuestran que algoritmos como Naive Bayes y XGBoost (con técnicas de muestreo) logran un equilibrio entre exactitud y sensibilidad, ofreciendo una alternativa eficiente y de bajo costo para la gestión del riesgo en zonas rurales de difícil acceso.	spa
dc.description.abstract	This thesis develops a supervised learning model for the early detection of Type 2 Diabetes Mellitus in vulnerable populations in southwestern Colombia. Using the CRISP-DM methodology, non-clinical data (social and environmental) from a subsidized health regime (EPS) were analyzed. Given the severe class imbalance (6.3% prevalence), sampling techniques such as SMOTE and Undersampling were applied, prioritizing recall as the key performance metric. The results show that algorithms like Naive Bayes and XGBoost (combined with sampling) achieve a balance between accuracy and sensitivity, providing a cost-effective alternative for risk management in remote rural areas with limited clinical logistics.	eng
dc.description.degreelevel	Magíster
dc.description.degreename	Trabajo de grado para optar al título de Magister en Ciencia de Datos
dc.description.tableofcontents	RESUMEN -- 1. PROBLEMA DE INVESTIGACIÓN -- 1.1 Contexto -- Antecedentes y Justificación -- 1.2 Planteamiento del Problema -- 1.3 Pregunta de investigación -- 2. OBJETIVOS -- 2.1 Objetivo General -- 2.2 Objetivos Específicos -- 3. REVISIÓN BIBLIOGRÁFICA -- 3.1 Marco Teórico -- 3.1.1 Dominio del Problema -- 3.1.2 Dominio de la Solución -- 3.2 Estado del Arte -- 3.2.1 Trabajos seleccionados -- 3.2.1.1 Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey -- (Sharma & Singh -- 2019) -- 3.2.1.2 Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice (Hajjaj -- Salek -- Basra -- & Finlay -- 2010) -- 3.2.1.3 Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - Clinical Parameters (Mathew & Sher ly -- 2018) -- 3.2.1.4 Low - Cost Method for Multiple Disease Prediction (Bayati -- Bhaskar -- & Montanari -- 2015) -- 3.2.1.5 A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations (Srivastava -- Kumar -- Fore -- & Tomar -- 2021) -- 3.2.1.6 Prediction of Diabetes based on environmental and socioeconomic information (Mejía -- Oviedo -- Ordonez -- & Valencia -- 2022) -- 3.2.2 Matriz de comparación -- 3.2.3 Conclusiones del estado del arte -- 3.3 Modelos Predictivos / Clasificación -- 3.3.1 KNN – K - Nearest - Neighbor -- 3.3.2 Árboles de Decisión – Decision Tree -- 3.3.3 Bosques Aleatorios – Random Forest -- 3.3.4 Naive Bayes -- 3.3.5 Regresión Logística -- 3.3.6 Gradient Boosting -- 3.3.7 eXtreme Gradient Boosting -- 3.3.8 Multi Layer Perceptron -- 4. METODOLOGÍA -- 5. PRESENTACIÓN DEL TRABAJO DE INVESTIGACIÓN (METODOLOGÍA PROPUESTA) -- 5.1 Entendimiento de los datos -- 5.1.1 Recolección y descripción de los datos -- 5.1.2 Análisis Exploratorio de los datos -- 5.1.2.1 Usuarios no afiliados a la EPS -- 5.1.2.2 Caracterización de la población objeto de estudio -- 5.1.2.3 Revisión e identificación de variables no clínicas que pueden influir en la DMT2 -- 5.2 Preparación de los datos -- 5.2.1 Ajuste de tipo de datos y valores de variables -- 5.2.2 Creación de variables y escalado de variables numéricas -- 5.2.3 Variables de entrada identificadas para la detección de DMT2 -- 5.2.4 Codificación de las variables categóricas con más de una categoría -- 5.2.4.1 Codificación one - hot -- 5.2.5 Selección de Variables aplicando Regresión Logística con penalización Lasso -- 5.3 Modelado -- 5.3.1 Descripción de la función de optimización bayesiana -- 5.3.2 Hiperparámetros empleados -- 5.3.3 Desbalance de clases -- 5.3.3.1 Submuestreo Aleatorio (Undersampling) -- 5.3.3.2 Sobremuestreo Aleatorio (Oversampling) -- 5.3.3.3 Smote -- 5.3.3.4 Smote - tomek -- 5.4 Evaluación -- 5.4.1 Exactitud (Accuracy) -- 5.4.2 Sensibilidad (Recall) -- 5.4.3 F1 - Score -- 5.4.4 ROC - AUC -- 6. PRESENTACIÓN Y ANÁLISIS DE RESULTADOS -- 6.1 Escenario 1: Aplicación de algoritmos con métodos de muestreo sobre el total de la base de datos -- 6.1.1 Resultados con datos limpios sin balance de clases -- 6.1.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.1.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.1.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.1.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 6.2 Escenario 2: Aplicación de algoritmos con métodos de muestreo sobre la base de datos después de selección de variables con regularización Lasso -- 6.2.1 Resultados con datos limpios sin balance de clases -- 6.2.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.2.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.2.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.2.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 7. CONCLUSIONES -- 8. RECOMENDACIONES Y ESTUDIOS FUTUROS -- BIBLIOGRAFÍA -- ANEXOS -- LISTA DE TABLAS -- LISTA DE ILUSTRACIONES.	spa
dc.format.extent	96 páginas
dc.format.medium	Digital
dc.format.mimetype	application/pdf
dc.identifier.OLIB	https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366461
dc.identifier.instname	instname:Universidad Icesi
dc.identifier.reponame	reponame:Biblioteca Digital
dc.identifier.repourl	repourl:https://repository.icesi.edu.co/
dc.identifier.uri	https://hdl.handle.net/10906/130587
dc.language.iso	spa
dc.publisher	Universidad Icesi
dc.publisher.faculty	Barberi de Ingeniería, Diseño y Ciencias Aplicadas
dc.publisher.place	Santiago de Cali
dc.publisher.program	Maestría en Ciencia de Datos
dc.relation.references	Ahmed Osman, A., Ahmed, A., Chow, M., & Huang, Y. (2021). Extreme gradient boosting (Xgboost) model to predict the groundwater. Ain Shams Engineering Journal. doi:https://doi.org/10.1016/j.asej.2020.11.011	spa
dc.relation.references	Avilés - Santa, M. L., Monroig - Rivera, A., Soto - Soto , A., & Lindberg, N. M. (2020). Current State of Diabetes Mellitus Prevalence, Awareness, Treatment, and Control in Latin America: Challenges and Innovative Solutions to Improve Health Outcomes Across the Continent. Springer Nature. doi:https://doi.org/10. 1007/s11892 - 020 - 01341 - 9	spa
dc.relation.references	Bayati, M., Bhaskar, S., & Montanari, A. (2015). A Low - Cost Method for Multiple Disease Prediction. AMIA Annu Symp Proc.	spa
dc.relation.references	Breiman, L. (2001). Random Forests. Kluwer Academic Publishers. Manufactured in The Netherlands.	spa
dc.relation.references	Castrillón, O. D., Sarache, W., & Castaño, E. (2017, Diciembre). Sistema bayesiano para la predicción de la diabetes. Inf. Tecnol, vol 28, 161 - 168.	spa
dc.relation.references	Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP - DM 1.0. Step - by - st ep data mining guide. SPSS Inc. doi:https://doi.org/10.1017/CBO9781107415324.004	spa
dc.relation.references	Chawla, N. (2010). Data Mining and Knowledge Discovery Handbook - Data Mining for Imbalanced Datasets: An Overview. Boston: Springer, Boston, MA. doi:https://doi.org/10.1007/9 78 - 0 - 387 - 09823 - 4_45	spa
dc.relation.references	Cohen, J., Cohen, P., West, S., & Aiken, L. (2013). Applied multiple regression/correlation analysis for the behavioral sciences. New York: Routledge. doi:https://doi.org/10.4324/9780203774441	spa
dc.relation.references	El - Sappagh, S., Ali, F., El - Masri, S., Kim, K., Ali, A., & Kwak, S. (2019). Mobile Health Technologies for Diabetes Mellitus: Current State and Future Challenges. doi:10.1109/ACCESS.2018.2881001	spa
dc.relation.references	Fezeka Swana, E., Doorsamy, W., & Bokoro, P. (2022). Tomek Link and SMOTE Approaches for Machine Fault C lassification with an Imbalanced Dataset. MDPI - Academic Open Access Publishing. doi:https://doi.org/10.3390/s22093246	spa
dc.relation.references	Fondo Colombiano de Enfermedades de Alto Costo. (2022). Infografía Día Mundial de la Diabetes. Obtenido de https://cuentadealtocosto.org /site/general/dia - mundial - de - la - diabetes - 2022/	spa
dc.relation.references	Gardner, M., & Dorling, S. (1998). Artificial neural networks (the multilayer perceptron) — a review of applications in the atmospheric sciences. Atmospheric Environment. doi:https://doi.org/10.1016/S1352 - 2310(9 7)00447 - 0	spa
dc.relation.references	Gómez - Encino, G. d., Cruz - León, A., Zapata - Vázquez, R., & Morales - Ramón, F. (2015). Nivel de conocimiento que tienen los pacientes con Diabetes Mellitus tipo 2 en relación a su enfermedad. Salud en Tabasco, 17 - 25.	spa
dc.relation.references	Hajjaj, F., Salek, M., Basra, M ., & Finlay, A. (2010). Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice. In Journal of the Royal Society of Medicine, (Vol. 103, Issue 5, pp. 178 – 187).	spa
dc.relation.references	Han, J., Rodriguez, J. C., & Beheshti, M. (2008). Diab etes data analysis and prediction model discovery using rapidminer. 2008 Second International Conference on Future Generation Communication and Networking, 96 - 99. doi:10.1109/FGCN.2008.226	spa
dc.relation.references	Hong Chen, Songhua Hu, Rui Hua, & Xiuju Zhao. (2021). Improved naiv e Bayes classification algorithm for traffic risk management. EURASIP Journal on Advances in Signal Processing. doi:https://doi.org/10.1186/s13634 - 021 - 00742 - 6	spa
dc.relation.references	Jacobs - Basadien, M., Pather, S., & Petersen, F. (2022). The role of culture in the adoption of mo bile applications for the self - management of diabetes in low resourced urban communities. Obtenido de https://nebulosa.icesi.edu.co:2144/10.1007/s10209 - 022 - 00951 - 2	spa
dc.relation.references	Kotsiantis, S., Kanellopoulos, D., & Pintelas, P. (2006). Handling imbalanced datasets: A review. GESTS International Transactions on Computer Science and Engineering.	spa
dc.relation.references	Leiva, A. M., Martínez, M. A., Petermann, F., Garrido Méndez, A., Poblete Valderrama, F. , Díaz Martínez, X., & Celis Morales, C. (2018). Risk factors associated with type 2 diabetes in Chile. Nutrición Hospitalaria, 35 (2), 400 - 407. doi:https://dx.doi.org/10.20960/nh.1434	spa
dc.relation.references	Martínez Pérez, J., & Pérez Martin, P. (2022). La curva ROC. Elservier. doi:10.1016/j.semerg.2022.101821	spa
dc.relation.references	Mathew, T. J., & Sherly, E. (2018). Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - clinical Parameters. 2018 International CET Conference on Control, Communication, and Computing (IC4).	spa
dc.relation.references	Mejía, J., Oviedo, M., Ordonez, A., & Valencia, J. F. (2022). Prediction of Diabetes based on environmental and socioeconomic information.	spa
dc.relation.references	Ministerio de Salud y Protección Social. (2021, 10 18). Ministerio de Salud y Protección Social. Retrieved from Ministerio de Salud y Protección Social: https://www.minsalud.gov.co/Paginas/Prevenir - la - diabetes - clave - desde - los - habitos - saludables.aspx	spa
dc.relation.references	Mohammed, R., Rawashdeh, J., & Abdullah, M. (2020). Machine Learning with Oversampling and Undersampling Techniques: Overview Study and Experimental Results. ResearchGate. doi:10.1109/ICICS49469.2020.239556	spa
dc.relation.references	Natekin, A., & Knoll, A. (2013). Gradient boosting machines, a tutorial. Frontiers in Neurorobotics. doi:doi: 10.3389/fnbot.2013.00021	spa
dc.relation.references	Organización Mundial de la Salud. (2016). Informe Mundial sobre la Diabetes. Ginebra: Se reservan todos los derechos.	spa
dc.relation.references	Organización Panamericana de la Salud. (2020). Diagnóstico y manejo de la diabetes de tipo 2 (HEARTS - D). Pan American Health Organization. (2022). Panorama of Diabetes in the Americas. Washington D.C.	spa
dc.relation.references	Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., . . . Duchesnay, É. (s.f.). Scikit - learn: Machine Learning in Python. Obtenido de Journal of Machine Learning Research: http://jml r.org/papers/v12/pedregosa11a.html	spa
dc.relation.references	Pérez - Gandía, C. (Marzo de 2014). Propuesta de algoritmos de predicción de glucosa en pacientes diabéticos. Madrid.	spa
dc.relation.references	Rajaguru, H., & Chakravarthy, S. (2019). Analysis of Decision Tree and K - Nearest Neighbor Algorithm in t he Classification of Breast Cancer. Asian Pac J Cancer Prev. doi:10.31557/APJCP.2019.20.12.3777	spa
dc.relation.references	Ramón, A., Torres, A., Milara, J., Cascón, J., Blasco, P., & Mateo, J. (2022). eXtreme Gradient Boosting - based method to classify patients with COVID - 19. Journa l of Investigative Medicine. doi:http://dx.doi.org/10.1136/jim - 2021 - 002278	spa
dc.relation.references	Raschka, S., & Mirjalili, V. (2019). Python Machine Learning. Aprendizaje automático y aprendizaje profundo con Python, scikit - learn y TensorFlow. MARCOMBO, S.A.	spa
dc.relation.references	Rocha Íñigo, A. (20 20). Codificación de variables categóricas en aprendizaje automático. Tesis Máster, Universidad de Sevilla, Depto. de Ingeniería de Sistemas y Automática, Sevilla. Obtenido de https://idus.us.es/bitstream/handle/11441/108887/M1909%20Rocha%20%c3%8d%c3%b 1igo %2c%20Adri%c3%a1n.pdf?sequence=1&isAllowed=y	spa
dc.relation.references	Saria, S., Rajani, A. K., Gould, J., Koller, D., & Penn, A. A. (2010). Integration of early physiological responses predicts later illness severity in preterm infants. Science Translational Medicine. , 2(48):48ra 65. doi:10.1126/scitranslmed.3001304	spa
dc.relation.references	Sharma, N., & Singh, A. (2019). Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey. Springer Singapore.	spa
dc.relation.references	Snoek, J., Larochelle, H., & Adams, R. (2012). Practical Bayesian Optimization of Machine Learn ing Algorithms. Advances in Neural Information Processing Systems. doi:https://doi.org/10.48550/arXiv.1206.2944	spa
dc.relation.references	Song, X., Mitnitski, A., Cox, J., & Rockwood, K. (2004). Comparison of machine learning techniques with classical statistical models in predicti ng health outcomes. Stud Health Technol Inform. Stud Health Technol Inform., 107(Pt 1):736 - 40.	spa
dc.relation.references	Song, Y. - y., & Lu, Y. (2015). Decision tree methods: applications for classification. Shanghai Arch Psychiatry. doi:10.11919/j.issn.1002 - 0829.215044	spa
dc.relation.references	Srivastava, R., Kumar, S., Fore, V., & Tomar, R. (2021). A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations. Springer Nature Switzerland AG, 116 – 124. doi:https://doi.org/10.1007/978 - 3 - 030 - 88244 - 0_12	spa
dc.relation.references	Villalobos, A., Rojas - Martínez, R., Aguilar - Salinas, C. A., Romero - Martínez, M., Mendoza - Alvarado, L. R., Flores - Luna, M. d., . . . Ávila - Burgos, L. (2019). Atención médica y acciones de autocuidado en personas que viven con diabetes, segú n nivel socioecnómico. Salud Publica Mex., 876 - 887.	spa
dc.relation.references	Zapeta Hernández, A., Galindo Rosales, G., Juan Santiago, H., & Martínez Lee, M. (2022). Métricas de rendimiento para evaluar el aprendizaje automático en la clasificación de imágenes petroleras utilizand o redes neuronales convolucionales. Ciencia Latina Revista Científica Multidisciplinar. doi:https://doi.org/10.37811/cl_rcm.v6i5.3420	spa
dc.rights	EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.subject.proposal	Diabetes Mellitus	spa
dc.subject.proposal	Variables No Clínicas	spa
dc.subject.proposal	Machine Learning	spa
dc.subject.proposal	Balance de Clases	spa
dc.subject.proposal	Modelo de Predicción	spa
dc.subject.proposal	Diabetes Mellitus	eng
dc.subject.proposal	Non-Clinical Variables	eng
dc.subject.proposal	Machine Learning	eng
dc.subject.proposal	Class Balance	eng
dc.subject.proposal	Prediction Model	eng
dc.subject.proposal	Tesis de Maestría en Ciencia de Datos	spa
dc.title	Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado	spa
dc.type	master thesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.coarversion	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.local	Tesis de maestría
dc.type.version	info:eu-repo/semantics/publishedVersion

Files

Original bundle

Now showing 1 - 1 of 1

Name:: T03094.pdf
Size:: 2.09 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Maestría en Ciencia de Datos