Detección temprana del diagnostico de diabetes tipo II a partir de variables no clínicas utilizando técnicas de Machine Learning
| dc.audience | Todo Público | |
| dc.contributor.advisor | Diaz Cely, Javier | |
| dc.contributor.author | Ome Narváez, Leidy Tatiana | |
| dc.contributor.author | Ordóñez Quintero, Danny Guillermo | |
| dc.coverage.spatial | Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees. | |
| dc.date.accessioned | 2026-03-09T16:10:59Z | |
| dc.date.available | 2026-03-09T16:10:59Z | |
| dc.date.issued | 2023-07-12 | |
| dc.description.abstract | La diabetes tipo II es una enfermedad crónica y grave que se caracteriza por niveles elevados de glucosa en la sangre debido a la incapacidad del cuerpo para producir o utilizar eficazmente la insulina. Si no se controla a largo plazo, esta deficiencia de insulina puede causar daño a varios órganos del cuerpo, lo que lleva a complicaciones discapacitantes y potencialmente fatales como enfermedades cardiovasculares, neuropatía, nefropatía y problemas oculares. Por lo tanto, el diagnóstico y tratamiento tempranos de la diabetes tipo II son de vital importancia para prevenir el desarrollo y las complicaciones de las enfermedades cardiovasculares y renales. Por esta razón, este proyecto de tesis formuló el desarrollo de un modelo predictivo para el diagnóstico temprano de esta enfermedad. Para el desarrollo de este modelo, se tomó en cuenta información no clínica del paciente, como: datos demográficos, datos sociodemográficos, actividad física y antecedentes familiares. Se utilizaron datos de 204,572 usuarios afiliados a una IPS a nivel nacional, donde el 20.4% están diagnosticados con diabetes tipo II. Se entrenaron modelos de clasificación supervisada como Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost) y Multilayer Perceptron (MLP), y se descubrió que XGBoost era el mejor modelo para predecir la diabetes tipo II con una métrica de rendimiento ROC-AUC del 77 %. | spa |
| dc.description.abstract | Type II diabetes is a chronic and serious disease characterized by elevated blood glucose levels due to the body's inability to effectively produce or use insulin. If not controlled long-term, this insulin deficiency can cause damage to various organs of the body, leading to disabling and potentially fatal complications such as cardiovascular diseases, neuropathy, nephropathy, and eye problems. Therefore, early diagnosis and treatment of type II diabetes are of vital importance to prevent the development and complications of cardiovascular and renal diseases. For this reason, this thesis project formulated the development of a predictive model for the early diagnosis of this disease. For the development of this model, non-clinical patient information was taken into account, such as: demographic data, sociodemographic data, physical activity, and family history. Data from 204,572 users affiliated with a nationwide IPS were used, where 20.4% are diagnosed with type II diabetes. Supervised classification models such as Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost), and Multilayer Perceptron (MLP) were trained, with XGBoost found to be the best model for predicting type II diabetes with a ROC-AUC performance metric of 77%. | eng |
| dc.description.degreelevel | Magíster | |
| dc.description.degreename | Trabajo de grado para optar al título de Magister en Ciencia de Datos | |
| dc.description.tableofcontents | RESUMEN -- 1. INTRODUCCIÓN -- 1.1 Contexto y Antecedentes -- 1.2 Planteamiento del Problema -- 1.3 Objetivo General -- 1.4 Objetivos Específicos -- 2. ANTECEDENTES -- 2.1 Estado del arte -- 2.1.1 Machine learning for characterizing risk of type 2 diabetes mellitus in a rural Chinese population: the Henan Rural Cohort Study -- 2.1.2 Diagnóstico de la diabetes mediante el uso de técnicas de aprendizaje automático -- 2.1.3 Modelos de aprendizaje automático para la predicción del riesgo de fatalidad por Insuficiencia Cardiaca con datos clínicos -- 2.1.4 Predicción del diagnóstico de diabetes a partir de perfiles clínicos de pacientes utilizando aprendizaje automático -- 2.2 Marco Teórico -- 2.2.1 Dominio del problema -- 2.2.1.1 Diabetes -- 2.2.1.2 Tipos de Diabetes -- 2.2.1.3 Prevención contra la diabetes tipo II -- 2.2.1.4 Impactos en la salud -- 2.2.2 Dominio de la solución -- 2.2.2.1 Aprendizaje Automático (Machine Learning) -- 2.2.2.2 Clasificación -- 2.2.2.3 XG - Boost -- 2.2.2.4 SVM -- 2.2.2.5 Redes Neuronales (ANN) -- 2.2.2.6 Métricas de evaluación: Matriz de confusión y métricas de clasificación -- 3. METODOLOGÍA -- 4. PRESENTACIÓN DE LA PROPUESTA -- 4.1 Recolección de los datos -- 4.2 Limpieza y preparación de los datos -- 4.3 Conjunto de datos final -- 4.4 Definición de variables -- 4.5 Análisis Exploratorio -- 4.5.1 Asociación de la Diabetes con las variables predictoras cualitativas -- 4.6 Modelamiento -- 4.6.1 Pre - procesamiento -- 4.7 Hiperparámetros empleados -- 4.8 Evaluación del modelo -- 5. DISEÑO DE EXPERIMENTO DE VALIDACIÓN -- 6. RESULTADOS OBTENIDOS -- 6.1 Benchmarking de modelos -- 6.1 Definición del punto de corte para las probabilidades obtenidas -- 6.2 Resultados del Modelo -- 7. CONCLUSIONES Y FUTURO TRABAJO -- 8. BIBLIOGRAFÍA | spa |
| dc.format.extent | 67 páginas | |
| dc.format.medium | Digital | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.OLIB | https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366459 | |
| dc.identifier.instname | instname:Universidad Icesi | |
| dc.identifier.reponame | reponame:Biblioteca Digital | |
| dc.identifier.repourl | repourl:https://repository.icesi.edu.co/ | |
| dc.identifier.uri | https://hdl.handle.net/10906/130585 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Icesi | |
| dc.publisher.faculty | Barberi de Ingeniería, Diseño y Ciencias Aplicadas | |
| dc.publisher.place | Santiago de Cali | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.relation.references | Chen, T., y Guestrin, C. (2016). Xgboost: A scalable tree boosting system. En Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785 – 794). | spa |
| dc.relation.references | Federación Internacional de Diabetes (2019). ATLAS DE LA DIABETES DE LA FID, Novena Edición. URL: https://www.diabetesatlas.org/upload/resources/material/20200302_133352_2406 - IDF - ATLAS - SPAN - BOOK.pdf | spa |
| dc.relation.references | Federación Internacional de Diabetes (12 de diciembre de 2021).Diabetes facts & figures. https://idf.org/aboutdiabetes/what - is - diabetes/facts - figures.html | spa |
| dc.relation.references | James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112, p. 18). New York: springer. | spa |
| dc.relation.references | Galindo, E. A., Perdomo, J. A., & Figueroa - García, J. C. (2020). Estudio comparativo entre máquinas de soporte vectorial multiclase, redes neuronales artificiales y sistema de inferencia neuro - difuso auto organizado para problemas de clasificación. Información tecnológica, 31(1), 273 - 286. | spa |
| dc.relation.references | Agatonovic - Kustrin, S., & Beresford, R. (2000). Basic concepts of artificial neural network (ANN) modeling and its application in pharmaceutical research. Journal of pharmaceutical and biomedical analysis, 22(5), 717 - 727. | spa |
| dc.relation.references | Hemati, S., Beiranvand, P., & Sharafi, M. (2019). ellipse perimeter estimation using nonparametric regression of rbf neural network based on elliptic integral of the second type. Investigación Operacional, 39(4), 6 39 - 646. | spa |
| dc.relation.references | Instituto Nacional de Salud [NIH], (16 de noviembre de 2016). Información general sobre la Diabetes. https://www.niddk.nih.gov/health - information/informacion - de - la - salud/diabetes/informacion - general/que - es | spa |
| dc.relation.references | Mahesh, B. (2020). Machine learning algo rithms - a review. International Journal of Science and Research (IJSR).[Internet], 9, 381 - 386. | spa |
| dc.relation.references | Martínez Leal, A. (2021). Diagnóstico de la diabetes mediante el uso de técnicas de aprendizaje automático (Doctoral dissertation, Universitat Politècnica de Val ència). | spa |
| dc.relation.references | Ministerio de Salud y Protección Social (14 de febrero de 2022). Mortalidad en Colombia. https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/VS/ED/GCFI/mor talidad - colombia - periodo - 2020 - 2021.pdf | spa |
| dc.relation.references | Organización Panamericana de la Salud [OPS], 2019. Información general sobre la Diabetes. https://www.paho.org/es/temas/diabetes | spa |
| dc.relation.references | Pérez Leal, L. E. (2021). Predicción del diagnostico de diabetes a partir de perfiles clínicos de pacientes utilizando aprendizaje automático. | spa |
| dc.relation.references | Roman, V. (2019, Ma rzo 27). Aprendizaje Supervisado: Introducción a la Clasificación y Principales Algoritmos. Obtenido de Medium: https://medium.com/datos - y - ciencia/aprendizaje - supervisado - introducci%C3%B3n - a - la - clasificaci%C3%B3n - y - principales - algoritmos - dadee99c9407 | spa |
| dc.relation.references | Varg as, J., Conde, M. B., Paccapelo, M. V., & Zingaretti, M. L. (2012, August). Máquinas de soporte vectorial: metodología y aplicación en R. In Décimo Congreso Latinoamericano de Sociedades de Estadística. | spa |
| dc.relation.references | Zhou, J., Qiu, Y., Zhu, S., Armaghani, D. J., Khande lwal, M., y Mohamad, E. T. (2020). Estimation of the tbm advance rate under hard rock conditions using xgboost and bayesian optimization. Underground Space. | spa |
| dc.relation.references | Zhang, L., Wang, Y., Niu, M., Wang, C., & Wang, Z. (2020). Machine learning for characterizing ris k of type 2 diabetes mellitus in a rural Chinese population: The Henan Rural Cohort Study. Scientific reports, 10(1), 1 - 10. | spa |
| dc.relation.references | Gallego Valcárcel, D. A., & Lucas Monsalve, D. F. (2021). Modelos de aprendizaje automático para la predicción del riesgo de fatalidad por insuficiencia cardiaca con datos clínicos. | spa |
| dc.relation.references | Hochreiter, Sepp and Jürgen Schmidhuber. 1997. “Long Short - Term Memory.” Neural Computation 9(8):1735 – 80. | spa |
| dc.relation.references | Cuenta de Alto Costo (2021). Día mundial de la diabetes 2021. Recuperado el día 02 de dicie mbre de 2022 tomado de: https://cuentadealtocosto.org/site/general/dia - mundial - de - la - diabetes - 2021/#:~:text=M%C3%A1s%20de%20un%20mill%C3%B3n%20seiscientos% 20mil%20colombianos%20tienen%20diabetes&text=De%20acuerdo%20con%20la %20informaci%C3%B3n,mellitus%20( DM)%20en%20Colombia. | spa |
| dc.relation.references | Raschka, S., & Mirjalili, V. (2017). Python machine learning: Machine learning and deep learning with python. Scikit - Learn, and TensorFlow. Second edition ed, 3 | spa |
| dc.relation.references | Sitiobigdata.com https://sitiobigdata.com/2019/01/19/machine - learning - metrica - clasificacion - parte - 3/# | spa |
| dc.relation.references | Scikitlearn - MLP (2013) https://scikitlearn.org/stable/modules/generated/sklearn.neural_network.MLPClassi fier.html | spa |
| dc.relation.references | ( Scikitlearn - SVC (2013) https://scikit - learn.org/stable/about.html#citing - scikit - learn | spa |
| dc.relation.references | (Xgboost - 2022) htt ps://xgboost.readthedocs.io/en/stable/parameter.html | spa |
| dc.rights | EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.license | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject.proposal | Diabetes tipo II | spa |
| dc.subject.proposal | Diagnóstico temprano | spa |
| dc.subject.proposal | Machine Learning | spa |
| dc.subject.proposal | Variables no clínicas | spa |
| dc.subject.proposal | Modelos predictivos | spa |
| dc.subject.proposal | Clasificación | spa |
| dc.subject.proposal | Type II diabetes | eng |
| dc.subject.proposal | Early diagnosis | eng |
| dc.subject.proposal | Machine Learning | eng |
| dc.subject.proposal | Non-clinical variables | eng |
| dc.subject.proposal | Predictive models | eng |
| dc.subject.proposal | Classification | eng |
| dc.subject.proposal | Tesis de Maestría en Ciencia de Datos | spa |
| dc.title | Detección temprana del diagnostico de diabetes tipo II a partir de variables no clínicas utilizando técnicas de Machine Learning | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.coarversion | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |
| dc.type.driver | info:eu-repo/semantics/masterThesis | |
| dc.type.local | Tesis de maestría | |
| dc.type.version | info:eu-repo/semantics/publishedVersion |
