Diaz Cely, JavierOme Narváez, Leidy TatianaOrdóñez Quintero, Danny Guillermo2026-03-092026-03-092023-07-12https://hdl.handle.net/10906/130585La diabetes tipo II es una enfermedad crónica y grave que se caracteriza por niveles elevados de glucosa en la sangre debido a la incapacidad del cuerpo para producir o utilizar eficazmente la insulina. Si no se controla a largo plazo, esta deficiencia de insulina puede causar daño a varios órganos del cuerpo, lo que lleva a complicaciones discapacitantes y potencialmente fatales como enfermedades cardiovasculares, neuropatía, nefropatía y problemas oculares. Por lo tanto, el diagnóstico y tratamiento tempranos de la diabetes tipo II son de vital importancia para prevenir el desarrollo y las complicaciones de las enfermedades cardiovasculares y renales. Por esta razón, este proyecto de tesis formuló el desarrollo de un modelo predictivo para el diagnóstico temprano de esta enfermedad. Para el desarrollo de este modelo, se tomó en cuenta información no clínica del paciente, como: datos demográficos, datos sociodemográficos, actividad física y antecedentes familiares. Se utilizaron datos de 204,572 usuarios afiliados a una IPS a nivel nacional, donde el 20.4% están diagnosticados con diabetes tipo II. Se entrenaron modelos de clasificación supervisada como Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost) y Multilayer Perceptron (MLP), y se descubrió que XGBoost era el mejor modelo para predecir la diabetes tipo II con una métrica de rendimiento ROC-AUC del 77 %.Type II diabetes is a chronic and serious disease characterized by elevated blood glucose levels due to the body's inability to effectively produce or use insulin. If not controlled long-term, this insulin deficiency can cause damage to various organs of the body, leading to disabling and potentially fatal complications such as cardiovascular diseases, neuropathy, nephropathy, and eye problems. Therefore, early diagnosis and treatment of type II diabetes are of vital importance to prevent the development and complications of cardiovascular and renal diseases. For this reason, this thesis project formulated the development of a predictive model for the early diagnosis of this disease. For the development of this model, non-clinical patient information was taken into account, such as: demographic data, sociodemographic data, physical activity, and family history. Data from 204,572 users affiliated with a nationwide IPS were used, where 20.4% are diagnosed with type II diabetes. Supervised classification models such as Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost), and Multilayer Perceptron (MLP) were trained, with XGBoost found to be the best model for predicting type II diabetes with a ROC-AUC performance metric of 77%.RESUMEN -- 1. INTRODUCCIÓN -- 1.1 Contexto y Antecedentes -- 1.2 Planteamiento del Problema -- 1.3 Objetivo General -- 1.4 Objetivos Específicos -- 2. ANTECEDENTES -- 2.1 Estado del arte -- 2.1.1 Machine learning for characterizing risk of type 2 diabetes mellitus in a rural Chinese population: the Henan Rural Cohort Study -- 2.1.2 Diagnóstico de la diabetes mediante el uso de técnicas de aprendizaje automático -- 2.1.3 Modelos de aprendizaje automático para la predicción del riesgo de fatalidad por Insuficiencia Cardiaca con datos clínicos -- 2.1.4 Predicción del diagnóstico de diabetes a partir de perfiles clínicos de pacientes utilizando aprendizaje automático -- 2.2 Marco Teórico -- 2.2.1 Dominio del problema -- 2.2.1.1 Diabetes -- 2.2.1.2 Tipos de Diabetes -- 2.2.1.3 Prevención contra la diabetes tipo II -- 2.2.1.4 Impactos en la salud -- 2.2.2 Dominio de la solución -- 2.2.2.1 Aprendizaje Automático (Machine Learning) -- 2.2.2.2 Clasificación -- 2.2.2.3 XG - Boost -- 2.2.2.4 SVM -- 2.2.2.5 Redes Neuronales (ANN) -- 2.2.2.6 Métricas de evaluación: Matriz de confusión y métricas de clasificación -- 3. METODOLOGÍA -- 4. PRESENTACIÓN DE LA PROPUESTA -- 4.1 Recolección de los datos -- 4.2 Limpieza y preparación de los datos -- 4.3 Conjunto de datos final -- 4.4 Definición de variables -- 4.5 Análisis Exploratorio -- 4.5.1 Asociación de la Diabetes con las variables predictoras cualitativas -- 4.6 Modelamiento -- 4.6.1 Pre - procesamiento -- 4.7 Hiperparámetros empleados -- 4.8 Evaluación del modelo -- 5. DISEÑO DE EXPERIMENTO DE VALIDACIÓN -- 6. RESULTADOS OBTENIDOS -- 6.1 Benchmarking de modelos -- 6.1 Definición del punto de corte para las probabilidades obtenidas -- 6.2 Resultados del Modelo -- 7. CONCLUSIONES Y FUTURO TRABAJO -- 8. BIBLIOGRAFÍA67 páginasDigitalapplication/pdfspaEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.http://creativecommons.org/licenses/by-nc-nd/4.0/Detección temprana del diagnostico de diabetes tipo II a partir de variables no clínicas utilizando técnicas de Machine Learningmaster thesishttps://biblioteca2.icesi.edu.co/cgi-olib/?oid=366459info:eu-repo/semantics/openAccessAttribution-NonCommercial-NoDerivatives 4.0 InternationalDiabetes tipo IIDiagnóstico tempranoMachine LearningVariables no clínicasModelos predictivosClasificaciónType II diabetesEarly diagnosisMachine LearningNon-clinical variablesPredictive modelsClassificationTesis de Maestría en Ciencia de Datosinstname:Universidad Icesireponame:Biblioteca Digitalrepourl:https://repository.icesi.edu.co/http://purl.org/coar/access_right/c_abf2