Logo_Icesi
 

Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado

dc.audienceTodo Público
dc.contributor.advisorOrdóñez, José Armando
dc.contributor.authorCastro Salamanca, Larry Farid
dc.contributor.authorLópez, Juan Esteban
dc.coverage.spatialCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned2026-03-09T22:00:12Z
dc.date.available2026-03-09T22:00:12Z
dc.date.issued2023-07-10
dc.description.abstractEste trabajo de grado desarrolla un modelo de aprendizaje supervisado para la detección temprana de Diabetes Mellitus Tipo 2 en poblaciones vulnerables del suroccidente colombiano. Utilizando la metodología CRISP-DM, se analizaron datos no clínicos (sociales y ambientales) de una EPS del régimen subsidiado. Debido al fuerte desbalance de clases (6.3% de prevalencia), se aplicaron técnicas de muestreo como SMOTE y Undersampling, priorizando la sensibilidad (recall) como métrica principal. Los resultados demuestran que algoritmos como Naive Bayes y XGBoost (con técnicas de muestreo) logran un equilibrio entre exactitud y sensibilidad, ofreciendo una alternativa eficiente y de bajo costo para la gestión del riesgo en zonas rurales de difícil acceso.spa
dc.description.abstractThis thesis develops a supervised learning model for the early detection of Type 2 Diabetes Mellitus in vulnerable populations in southwestern Colombia. Using the CRISP-DM methodology, non-clinical data (social and environmental) from a subsidized health regime (EPS) were analyzed. Given the severe class imbalance (6.3% prevalence), sampling techniques such as SMOTE and Undersampling were applied, prioritizing recall as the key performance metric. The results show that algorithms like Naive Bayes and XGBoost (combined with sampling) achieve a balance between accuracy and sensitivity, providing a cost-effective alternative for risk management in remote rural areas with limited clinical logistics.eng
dc.description.degreelevelMagíster
dc.description.degreenameTrabajo de grado para optar al título de Magister en Ciencia de Datos
dc.description.tableofcontentsRESUMEN -- 1. PROBLEMA DE INVESTIGACIÓN -- 1.1 Contexto -- Antecedentes y Justificación -- 1.2 Planteamiento del Problema -- 1.3 Pregunta de investigación -- 2. OBJETIVOS -- 2.1 Objetivo General -- 2.2 Objetivos Específicos -- 3. REVISIÓN BIBLIOGRÁFICA -- 3.1 Marco Teórico -- 3.1.1 Dominio del Problema -- 3.1.2 Dominio de la Solución -- 3.2 Estado del Arte -- 3.2.1 Trabajos seleccionados -- 3.2.1.1 Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey -- (Sharma & Singh -- 2019) -- 3.2.1.2 Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice (Hajjaj -- Salek -- Basra -- & Finlay -- 2010) -- 3.2.1.3 Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - Clinical Parameters (Mathew & Sher ly -- 2018) -- 3.2.1.4 Low - Cost Method for Multiple Disease Prediction (Bayati -- Bhaskar -- & Montanari -- 2015) -- 3.2.1.5 A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations (Srivastava -- Kumar -- Fore -- & Tomar -- 2021) -- 3.2.1.6 Prediction of Diabetes based on environmental and socioeconomic information (Mejía -- Oviedo -- Ordonez -- & Valencia -- 2022) -- 3.2.2 Matriz de comparación -- 3.2.3 Conclusiones del estado del arte -- 3.3 Modelos Predictivos / Clasificación -- 3.3.1 KNN – K - Nearest - Neighbor -- 3.3.2 Árboles de Decisión – Decision Tree -- 3.3.3 Bosques Aleatorios – Random Forest -- 3.3.4 Naive Bayes -- 3.3.5 Regresión Logística -- 3.3.6 Gradient Boosting -- 3.3.7 eXtreme Gradient Boosting -- 3.3.8 Multi Layer Perceptron -- 4. METODOLOGÍA -- 5. PRESENTACIÓN DEL TRABAJO DE INVESTIGACIÓN (METODOLOGÍA PROPUESTA) -- 5.1 Entendimiento de los datos -- 5.1.1 Recolección y descripción de los datos -- 5.1.2 Análisis Exploratorio de los datos -- 5.1.2.1 Usuarios no afiliados a la EPS -- 5.1.2.2 Caracterización de la población objeto de estudio -- 5.1.2.3 Revisión e identificación de variables no clínicas que pueden influir en la DMT2 -- 5.2 Preparación de los datos -- 5.2.1 Ajuste de tipo de datos y valores de variables -- 5.2.2 Creación de variables y escalado de variables numéricas -- 5.2.3 Variables de entrada identificadas para la detección de DMT2 -- 5.2.4 Codificación de las variables categóricas con más de una categoría -- 5.2.4.1 Codificación one - hot -- 5.2.5 Selección de Variables aplicando Regresión Logística con penalización Lasso -- 5.3 Modelado -- 5.3.1 Descripción de la función de optimización bayesiana -- 5.3.2 Hiperparámetros empleados -- 5.3.3 Desbalance de clases -- 5.3.3.1 Submuestreo Aleatorio (Undersampling) -- 5.3.3.2 Sobremuestreo Aleatorio (Oversampling) -- 5.3.3.3 Smote -- 5.3.3.4 Smote - tomek -- 5.4 Evaluación -- 5.4.1 Exactitud (Accuracy) -- 5.4.2 Sensibilidad (Recall) -- 5.4.3 F1 - Score -- 5.4.4 ROC - AUC -- 6. PRESENTACIÓN Y ANÁLISIS DE RESULTADOS -- 6.1 Escenario 1: Aplicación de algoritmos con métodos de muestreo sobre el total de la base de datos -- 6.1.1 Resultados con datos limpios sin balance de clases -- 6.1.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.1.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.1.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.1.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 6.2 Escenario 2: Aplicación de algoritmos con métodos de muestreo sobre la base de datos después de selección de variables con regularización Lasso -- 6.2.1 Resultados con datos limpios sin balance de clases -- 6.2.2 Resultados con datos limpios con balanceo de clases aplicando Random Oversampling -- 6.2.3 Resultados con datos limpios con balanceo de clases aplicando UnderSampling -- 6.2.4 Resultados con datos limpios con balanceo de clases aplicando SMOTE -- 6.2.5 Resultados con datos limpios con balanceo de clases aplicando SMOTE - Tomek -- 7. CONCLUSIONES -- 8. RECOMENDACIONES Y ESTUDIOS FUTUROS -- BIBLIOGRAFÍA -- ANEXOS -- LISTA DE TABLAS -- LISTA DE ILUSTRACIONES.spa
dc.format.extent96 páginas
dc.format.mediumDigital
dc.format.mimetypeapplication/pdf
dc.identifier.OLIBhttps://biblioteca2.icesi.edu.co/cgi-olib/?oid=366461
dc.identifier.instnameinstname:Universidad Icesi
dc.identifier.reponamereponame:Biblioteca Digital
dc.identifier.repourlrepourl:https://repository.icesi.edu.co/
dc.identifier.urihttps://hdl.handle.net/10906/130587
dc.language.isospa
dc.publisherUniversidad Icesi
dc.publisher.facultyBarberi de Ingeniería, Diseño y Ciencias Aplicadas
dc.publisher.placeSantiago de Cali
dc.publisher.programMaestría en Ciencia de Datos
dc.relation.referencesAhmed Osman, A., Ahmed, A., Chow, M., & Huang, Y. (2021). Extreme gradient boosting (Xgboost) model to predict the groundwater. Ain Shams Engineering Journal. doi:https://doi.org/10.1016/j.asej.2020.11.011spa
dc.relation.referencesAvilés - Santa, M. L., Monroig - Rivera, A., Soto - Soto , A., & Lindberg, N. M. (2020). Current State of Diabetes Mellitus Prevalence, Awareness, Treatment, and Control in Latin America: Challenges and Innovative Solutions to Improve Health Outcomes Across the Continent. Springer Nature. doi:https://doi.org/10. 1007/s11892 - 020 - 01341 - 9spa
dc.relation.referencesBayati, M., Bhaskar, S., & Montanari, A. (2015). A Low - Cost Method for Multiple Disease Prediction. AMIA Annu Symp Proc.spa
dc.relation.referencesBreiman, L. (2001). Random Forests. Kluwer Academic Publishers. Manufactured in The Netherlands.spa
dc.relation.referencesCastrillón, O. D., Sarache, W., & Castaño, E. (2017, Diciembre). Sistema bayesiano para la predicción de la diabetes. Inf. Tecnol, vol 28, 161 - 168.spa
dc.relation.referencesChapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP - DM 1.0. Step - by - st ep data mining guide. SPSS Inc. doi:https://doi.org/10.1017/CBO9781107415324.004spa
dc.relation.referencesChawla, N. (2010). Data Mining and Knowledge Discovery Handbook - Data Mining for Imbalanced Datasets: An Overview. Boston: Springer, Boston, MA. doi:https://doi.org/10.1007/9 78 - 0 - 387 - 09823 - 4_45spa
dc.relation.referencesCohen, J., Cohen, P., West, S., & Aiken, L. (2013). Applied multiple regression/correlation analysis for the behavioral sciences. New York: Routledge. doi:https://doi.org/10.4324/9780203774441spa
dc.relation.referencesEl - Sappagh, S., Ali, F., El - Masri, S., Kim, K., Ali, A., & Kwak, S. (2019). Mobile Health Technologies for Diabetes Mellitus: Current State and Future Challenges. doi:10.1109/ACCESS.2018.2881001spa
dc.relation.referencesFezeka Swana, E., Doorsamy, W., & Bokoro, P. (2022). Tomek Link and SMOTE Approaches for Machine Fault C lassification with an Imbalanced Dataset. MDPI - Academic Open Access Publishing. doi:https://doi.org/10.3390/s22093246spa
dc.relation.referencesFondo Colombiano de Enfermedades de Alto Costo. (2022). Infografía Día Mundial de la Diabetes. Obtenido de https://cuentadealtocosto.org /site/general/dia - mundial - de - la - diabetes - 2022/spa
dc.relation.referencesGardner, M., & Dorling, S. (1998). Artificial neural networks (the multilayer perceptron) — a review of applications in the atmospheric sciences. Atmospheric Environment. doi:https://doi.org/10.1016/S1352 - 2310(9 7)00447 - 0spa
dc.relation.referencesGómez - Encino, G. d., Cruz - León, A., Zapata - Vázquez, R., & Morales - Ramón, F. (2015). Nivel de conocimiento que tienen los pacientes con Diabetes Mellitus tipo 2 en relación a su enfermedad. Salud en Tabasco, 17 - 25.spa
dc.relation.referencesHajjaj, F., Salek, M., Basra, M ., & Finlay, A. (2010). Non - clinical influences on clinical decision - making: a major challenge to evidence - based practice. In Journal of the Royal Society of Medicine, (Vol. 103, Issue 5, pp. 178 – 187).spa
dc.relation.referencesHan, J., Rodriguez, J. C., & Beheshti, M. (2008). Diab etes data analysis and prediction model discovery using rapidminer. 2008 Second International Conference on Future Generation Communication and Networking, 96 - 99. doi:10.1109/FGCN.2008.226spa
dc.relation.referencesHong Chen, Songhua Hu, Rui Hua, & Xiuju Zhao. (2021). Improved naiv e Bayes classification algorithm for traffic risk management. EURASIP Journal on Advances in Signal Processing. doi:https://doi.org/10.1186/s13634 - 021 - 00742 - 6spa
dc.relation.referencesJacobs - Basadien, M., Pather, S., & Petersen, F. (2022). The role of culture in the adoption of mo bile applications for the self - management of diabetes in low resourced urban communities. Obtenido de https://nebulosa.icesi.edu.co:2144/10.1007/s10209 - 022 - 00951 - 2spa
dc.relation.referencesKotsiantis, S., Kanellopoulos, D., & Pintelas, P. (2006). Handling imbalanced datasets: A review. GESTS International Transactions on Computer Science and Engineering.spa
dc.relation.referencesLeiva, A. M., Martínez, M. A., Petermann, F., Garrido Méndez, A., Poblete Valderrama, F. , Díaz Martínez, X., & Celis Morales, C. (2018). Risk factors associated with type 2 diabetes in Chile. Nutrición Hospitalaria, 35 (2), 400 - 407. doi:https://dx.doi.org/10.20960/nh.1434spa
dc.relation.referencesMartínez Pérez, J., & Pérez Martin, P. (2022). La curva ROC. Elservier. doi:10.1016/j.semerg.2022.101821spa
dc.relation.referencesMathew, T. J., & Sherly, E. (2018). Analysis of Supervised Learning Techniques for Cost Effective Disease Prediction Using Non - clinical Parameters. 2018 International CET Conference on Control, Communication, and Computing (IC4).spa
dc.relation.referencesMejía, J., Oviedo, M., Ordonez, A., & Valencia, J. F. (2022). Prediction of Diabetes based on environmental and socioeconomic information.spa
dc.relation.referencesMinisterio de Salud y Protección Social. (2021, 10 18). Ministerio de Salud y Protección Social. Retrieved from Ministerio de Salud y Protección Social: https://www.minsalud.gov.co/Paginas/Prevenir - la - diabetes - clave - desde - los - habitos - saludables.aspxspa
dc.relation.referencesMohammed, R., Rawashdeh, J., & Abdullah, M. (2020). Machine Learning with Oversampling and Undersampling Techniques: Overview Study and Experimental Results. ResearchGate. doi:10.1109/ICICS49469.2020.239556spa
dc.relation.referencesNatekin, A., & Knoll, A. (2013). Gradient boosting machines, a tutorial. Frontiers in Neurorobotics. doi:doi: 10.3389/fnbot.2013.00021spa
dc.relation.referencesOrganización Mundial de la Salud. (2016). Informe Mundial sobre la Diabetes. Ginebra: Se reservan todos los derechos.spa
dc.relation.referencesOrganización Panamericana de la Salud. (2020). Diagnóstico y manejo de la diabetes de tipo 2 (HEARTS - D). Pan American Health Organization. (2022). Panorama of Diabetes in the Americas. Washington D.C.spa
dc.relation.referencesPedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., . . . Duchesnay, É. (s.f.). Scikit - learn: Machine Learning in Python. Obtenido de Journal of Machine Learning Research: http://jml r.org/papers/v12/pedregosa11a.htmlspa
dc.relation.referencesPérez - Gandía, C. (Marzo de 2014). Propuesta de algoritmos de predicción de glucosa en pacientes diabéticos. Madrid.spa
dc.relation.referencesRajaguru, H., & Chakravarthy, S. (2019). Analysis of Decision Tree and K - Nearest Neighbor Algorithm in t he Classification of Breast Cancer. Asian Pac J Cancer Prev. doi:10.31557/APJCP.2019.20.12.3777spa
dc.relation.referencesRamón, A., Torres, A., Milara, J., Cascón, J., Blasco, P., & Mateo, J. (2022). eXtreme Gradient Boosting - based method to classify patients with COVID - 19. Journa l of Investigative Medicine. doi:http://dx.doi.org/10.1136/jim - 2021 - 002278spa
dc.relation.referencesRaschka, S., & Mirjalili, V. (2019). Python Machine Learning. Aprendizaje automático y aprendizaje profundo con Python, scikit - learn y TensorFlow. MARCOMBO, S.A.spa
dc.relation.referencesRocha Íñigo, A. (20 20). Codificación de variables categóricas en aprendizaje automático. Tesis Máster, Universidad de Sevilla, Depto. de Ingeniería de Sistemas y Automática, Sevilla. Obtenido de https://idus.us.es/bitstream/handle/11441/108887/M1909%20Rocha%20%c3%8d%c3%b 1igo %2c%20Adri%c3%a1n.pdf?sequence=1&isAllowed=yspa
dc.relation.referencesSaria, S., Rajani, A. K., Gould, J., Koller, D., & Penn, A. A. (2010). Integration of early physiological responses predicts later illness severity in preterm infants. Science Translational Medicine. , 2(48):48ra 65. doi:10.1126/scitranslmed.3001304spa
dc.relation.referencesSharma, N., & Singh, A. (2019). Diabetes Detection and Prediction Using Machine Learning/IoT: A Survey. Springer Singapore.spa
dc.relation.referencesSnoek, J., Larochelle, H., & Adams, R. (2012). Practical Bayesian Optimization of Machine Learn ing Algorithms. Advances in Neural Information Processing Systems. doi:https://doi.org/10.48550/arXiv.1206.2944spa
dc.relation.referencesSong, X., Mitnitski, A., Cox, J., & Rockwood, K. (2004). Comparison of machine learning techniques with classical statistical models in predicti ng health outcomes. Stud Health Technol Inform. Stud Health Technol Inform., 107(Pt 1):736 - 40.spa
dc.relation.referencesSong, Y. - y., & Lu, Y. (2015). Decision tree methods: applications for classification. Shanghai Arch Psychiatry. doi:10.11919/j.issn.1002 - 0829.215044spa
dc.relation.referencesSrivastava, R., Kumar, S., Fore, V., & Tomar, R. (2021). A Study of Five Models Based on Non - clinical Data for the Prediction of Diabetes Onset in Medically Under - Served Populations. Springer Nature Switzerland AG, 116 – 124. doi:https://doi.org/10.1007/978 - 3 - 030 - 88244 - 0_12spa
dc.relation.referencesVillalobos, A., Rojas - Martínez, R., Aguilar - Salinas, C. A., Romero - Martínez, M., Mendoza - Alvarado, L. R., Flores - Luna, M. d., . . . Ávila - Burgos, L. (2019). Atención médica y acciones de autocuidado en personas que viven con diabetes, segú n nivel socioecnómico. Salud Publica Mex., 876 - 887.spa
dc.relation.referencesZapeta Hernández, A., Galindo Rosales, G., Juan Santiago, H., & Martínez Lee, M. (2022). Métricas de rendimiento para evaluar el aprendizaje automático en la clasificación de imágenes petroleras utilizand o redes neuronales convolucionales. Ciencia Latina Revista Científica Multidisciplinar. doi:https://doi.org/10.37811/cl_rcm.v6i5.3420spa
dc.rightsEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.subject.proposalDiabetes Mellitusspa
dc.subject.proposalVariables No Clínicasspa
dc.subject.proposalMachine Learningspa
dc.subject.proposalBalance de Clasesspa
dc.subject.proposalModelo de Predicciónspa
dc.subject.proposalDiabetes Mellituseng
dc.subject.proposalNon-Clinical Variableseng
dc.subject.proposalMachine Learningeng
dc.subject.proposalClass Balanceeng
dc.subject.proposalPrediction Modeleng
dc.subject.proposalTesis de Maestría en Ciencia de Datosspa
dc.titleModelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiadospa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.localTesis de maestría
dc.type.versioninfo:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
T03094.pdf
Tamaño:
2.09 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: