Logo_Icesi
 

Detección temprana del diagnostico de diabetes tipo II a partir de variables no clínicas utilizando técnicas de Machine Learning

dc.audienceTodo Público
dc.contributor.advisorDiaz Cely, Javier
dc.contributor.authorOme Narváez, Leidy Tatiana
dc.contributor.authorOrdóñez Quintero, Danny Guillermo
dc.coverage.spatialCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned2026-03-09T16:10:59Z
dc.date.available2026-03-09T16:10:59Z
dc.date.issued2023-07-12
dc.description.abstractLa diabetes tipo II es una enfermedad crónica y grave que se caracteriza por niveles elevados de glucosa en la sangre debido a la incapacidad del cuerpo para producir o utilizar eficazmente la insulina. Si no se controla a largo plazo, esta deficiencia de insulina puede causar daño a varios órganos del cuerpo, lo que lleva a complicaciones discapacitantes y potencialmente fatales como enfermedades cardiovasculares, neuropatía, nefropatía y problemas oculares. Por lo tanto, el diagnóstico y tratamiento tempranos de la diabetes tipo II son de vital importancia para prevenir el desarrollo y las complicaciones de las enfermedades cardiovasculares y renales. Por esta razón, este proyecto de tesis formuló el desarrollo de un modelo predictivo para el diagnóstico temprano de esta enfermedad. Para el desarrollo de este modelo, se tomó en cuenta información no clínica del paciente, como: datos demográficos, datos sociodemográficos, actividad física y antecedentes familiares. Se utilizaron datos de 204,572 usuarios afiliados a una IPS a nivel nacional, donde el 20.4% están diagnosticados con diabetes tipo II. Se entrenaron modelos de clasificación supervisada como Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost) y Multilayer Perceptron (MLP), y se descubrió que XGBoost era el mejor modelo para predecir la diabetes tipo II con una métrica de rendimiento ROC-AUC del 77 %.spa
dc.description.abstractType II diabetes is a chronic and serious disease characterized by elevated blood glucose levels due to the body's inability to effectively produce or use insulin. If not controlled long-term, this insulin deficiency can cause damage to various organs of the body, leading to disabling and potentially fatal complications such as cardiovascular diseases, neuropathy, nephropathy, and eye problems. Therefore, early diagnosis and treatment of type II diabetes are of vital importance to prevent the development and complications of cardiovascular and renal diseases. For this reason, this thesis project formulated the development of a predictive model for the early diagnosis of this disease. For the development of this model, non-clinical patient information was taken into account, such as: demographic data, sociodemographic data, physical activity, and family history. Data from 204,572 users affiliated with a nationwide IPS were used, where 20.4% are diagnosed with type II diabetes. Supervised classification models such as Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost), and Multilayer Perceptron (MLP) were trained, with XGBoost found to be the best model for predicting type II diabetes with a ROC-AUC performance metric of 77%.eng
dc.description.degreelevelMagíster
dc.description.degreenameTrabajo de grado para optar al título de Magister en Ciencia de Datos
dc.description.tableofcontentsRESUMEN -- 1. INTRODUCCIÓN -- 1.1 Contexto y Antecedentes -- 1.2 Planteamiento del Problema -- 1.3 Objetivo General -- 1.4 Objetivos Específicos -- 2. ANTECEDENTES -- 2.1 Estado del arte -- 2.1.1 Machine learning for characterizing risk of type 2 diabetes mellitus in a rural Chinese population: the Henan Rural Cohort Study -- 2.1.2 Diagnóstico de la diabetes mediante el uso de técnicas de aprendizaje automático -- 2.1.3 Modelos de aprendizaje automático para la predicción del riesgo de fatalidad por Insuficiencia Cardiaca con datos clínicos -- 2.1.4 Predicción del diagnóstico de diabetes a partir de perfiles clínicos de pacientes utilizando aprendizaje automático -- 2.2 Marco Teórico -- 2.2.1 Dominio del problema -- 2.2.1.1 Diabetes -- 2.2.1.2 Tipos de Diabetes -- 2.2.1.3 Prevención contra la diabetes tipo II -- 2.2.1.4 Impactos en la salud -- 2.2.2 Dominio de la solución -- 2.2.2.1 Aprendizaje Automático (Machine Learning) -- 2.2.2.2 Clasificación -- 2.2.2.3 XG - Boost -- 2.2.2.4 SVM -- 2.2.2.5 Redes Neuronales (ANN) -- 2.2.2.6 Métricas de evaluación: Matriz de confusión y métricas de clasificación -- 3. METODOLOGÍA -- 4. PRESENTACIÓN DE LA PROPUESTA -- 4.1 Recolección de los datos -- 4.2 Limpieza y preparación de los datos -- 4.3 Conjunto de datos final -- 4.4 Definición de variables -- 4.5 Análisis Exploratorio -- 4.5.1 Asociación de la Diabetes con las variables predictoras cualitativas -- 4.6 Modelamiento -- 4.6.1 Pre - procesamiento -- 4.7 Hiperparámetros empleados -- 4.8 Evaluación del modelo -- 5. DISEÑO DE EXPERIMENTO DE VALIDACIÓN -- 6. RESULTADOS OBTENIDOS -- 6.1 Benchmarking de modelos -- 6.1 Definición del punto de corte para las probabilidades obtenidas -- 6.2 Resultados del Modelo -- 7. CONCLUSIONES Y FUTURO TRABAJO -- 8. BIBLIOGRAFÍAspa
dc.format.extent67 páginas
dc.format.mediumDigital
dc.format.mimetypeapplication/pdf
dc.identifier.OLIBhttps://biblioteca2.icesi.edu.co/cgi-olib/?oid=366459
dc.identifier.instnameinstname:Universidad Icesi
dc.identifier.reponamereponame:Biblioteca Digital
dc.identifier.repourlrepourl:https://repository.icesi.edu.co/
dc.identifier.urihttps://hdl.handle.net/10906/130585
dc.language.isospa
dc.publisherUniversidad Icesi
dc.publisher.facultyBarberi de Ingeniería, Diseño y Ciencias Aplicadas
dc.publisher.placeSantiago de Cali
dc.publisher.programMaestría en Ciencia de Datos
dc.relation.referencesChen, T., y Guestrin, C. (2016). Xgboost: A scalable tree boosting system. En Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785 – 794).spa
dc.relation.referencesFederación Internacional de Diabetes (2019). ATLAS DE LA DIABETES DE LA FID, Novena Edición. URL: https://www.diabetesatlas.org/upload/resources/material/20200302_133352_2406 - IDF - ATLAS - SPAN - BOOK.pdfspa
dc.relation.referencesFederación Internacional de Diabetes (12 de diciembre de 2021).Diabetes facts & figures. https://idf.org/aboutdiabetes/what - is - diabetes/facts - figures.htmlspa
dc.relation.referencesJames, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112, p. 18). New York: springer.spa
dc.relation.referencesGalindo, E. A., Perdomo, J. A., & Figueroa - García, J. C. (2020). Estudio comparativo entre máquinas de soporte vectorial multiclase, redes neuronales artificiales y sistema de inferencia neuro - difuso auto organizado para problemas de clasificación. Información tecnológica, 31(1), 273 - 286.spa
dc.relation.referencesAgatonovic - Kustrin, S., & Beresford, R. (2000). Basic concepts of artificial neural network (ANN) modeling and its application in pharmaceutical research. Journal of pharmaceutical and biomedical analysis, 22(5), 717 - 727.spa
dc.relation.referencesHemati, S., Beiranvand, P., & Sharafi, M. (2019). ellipse perimeter estimation using nonparametric regression of rbf neural network based on elliptic integral of the second type. Investigación Operacional, 39(4), 6 39 - 646.spa
dc.relation.referencesInstituto Nacional de Salud [NIH], (16 de noviembre de 2016). Información general sobre la Diabetes. https://www.niddk.nih.gov/health - information/informacion - de - la - salud/diabetes/informacion - general/que - esspa
dc.relation.referencesMahesh, B. (2020). Machine learning algo rithms - a review. International Journal of Science and Research (IJSR).[Internet], 9, 381 - 386.spa
dc.relation.referencesMartínez Leal, A. (2021). Diagnóstico de la diabetes mediante el uso de técnicas de aprendizaje automático (Doctoral dissertation, Universitat Politècnica de Val ència).spa
dc.relation.referencesMinisterio de Salud y Protección Social (14 de febrero de 2022). Mortalidad en Colombia. https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/VS/ED/GCFI/mor talidad - colombia - periodo - 2020 - 2021.pdfspa
dc.relation.referencesOrganización Panamericana de la Salud [OPS], 2019. Información general sobre la Diabetes. https://www.paho.org/es/temas/diabetesspa
dc.relation.referencesPérez Leal, L. E. (2021). Predicción del diagnostico de diabetes a partir de perfiles clínicos de pacientes utilizando aprendizaje automático.spa
dc.relation.referencesRoman, V. (2019, Ma rzo 27). Aprendizaje Supervisado: Introducción a la Clasificación y Principales Algoritmos. Obtenido de Medium: https://medium.com/datos - y - ciencia/aprendizaje - supervisado - introducci%C3%B3n - a - la - clasificaci%C3%B3n - y - principales - algoritmos - dadee99c9407spa
dc.relation.referencesVarg as, J., Conde, M. B., Paccapelo, M. V., & Zingaretti, M. L. (2012, August). Máquinas de soporte vectorial: metodología y aplicación en R. In Décimo Congreso Latinoamericano de Sociedades de Estadística.spa
dc.relation.referencesZhou, J., Qiu, Y., Zhu, S., Armaghani, D. J., Khande lwal, M., y Mohamad, E. T. (2020). Estimation of the tbm advance rate under hard rock conditions using xgboost and bayesian optimization. Underground Space.spa
dc.relation.referencesZhang, L., Wang, Y., Niu, M., Wang, C., & Wang, Z. (2020). Machine learning for characterizing ris k of type 2 diabetes mellitus in a rural Chinese population: The Henan Rural Cohort Study. Scientific reports, 10(1), 1 - 10.spa
dc.relation.referencesGallego Valcárcel, D. A., & Lucas Monsalve, D. F. (2021). Modelos de aprendizaje automático para la predicción del riesgo de fatalidad por insuficiencia cardiaca con datos clínicos.spa
dc.relation.referencesHochreiter, Sepp and Jürgen Schmidhuber. 1997. “Long Short - Term Memory.” Neural Computation 9(8):1735 – 80.spa
dc.relation.referencesCuenta de Alto Costo (2021). Día mundial de la diabetes 2021. Recuperado el día 02 de dicie mbre de 2022 tomado de: https://cuentadealtocosto.org/site/general/dia - mundial - de - la - diabetes - 2021/#:~:text=M%C3%A1s%20de%20un%20mill%C3%B3n%20seiscientos% 20mil%20colombianos%20tienen%20diabetes&text=De%20acuerdo%20con%20la %20informaci%C3%B3n,mellitus%20( DM)%20en%20Colombia.spa
dc.relation.referencesRaschka, S., & Mirjalili, V. (2017). Python machine learning: Machine learning and deep learning with python. Scikit - Learn, and TensorFlow. Second edition ed, 3spa
dc.relation.referencesSitiobigdata.com https://sitiobigdata.com/2019/01/19/machine - learning - metrica - clasificacion - parte - 3/#spa
dc.relation.referencesScikitlearn - MLP (2013) https://scikitlearn.org/stable/modules/generated/sklearn.neural_network.MLPClassi fier.htmlspa
dc.relation.references( Scikitlearn - SVC (2013) https://scikit - learn.org/stable/about.html#citing - scikit - learnspa
dc.relation.references(Xgboost - 2022) htt ps://xgboost.readthedocs.io/en/stable/parameter.htmlspa
dc.rightsEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.proposalDiabetes tipo IIspa
dc.subject.proposalDiagnóstico tempranospa
dc.subject.proposalMachine Learningspa
dc.subject.proposalVariables no clínicasspa
dc.subject.proposalModelos predictivosspa
dc.subject.proposalClasificaciónspa
dc.subject.proposalType II diabeteseng
dc.subject.proposalEarly diagnosiseng
dc.subject.proposalMachine Learningeng
dc.subject.proposalNon-clinical variableseng
dc.subject.proposalPredictive modelseng
dc.subject.proposalClassificationeng
dc.subject.proposalTesis de Maestría en Ciencia de Datosspa
dc.titleDetección temprana del diagnostico de diabetes tipo II a partir de variables no clínicas utilizando técnicas de Machine Learningspa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.localTesis de maestría
dc.type.versioninfo:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
T03092.pdf
Tamaño:
1.31 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: