Maestría en Ciencia de Datos

URI permanente para esta colecciónhttp://hdl.handle.net/10906/66933

Examinar

Mostrando 1 - 20 de 38

Acardi
(Universidad Icesi, 2012-01-01) Ruíz Villa, Juan Sebastián; Londoño Jaramillo, Sebastián; Asesor
Gracias a los grandes avances tecnológicos de nuestro tiempo, el cuidado de la salud ha sido transformado evolucionando junto con esta, haciendo casi inconcebible el pensar en entregar servicios médicos a la sociedad actual sin estos. Toda esta tecnología para el cuidado de la salud, instalaciones, equipos han cambiado durante las recientes décadas. Hasta mediados del siglo XX, los hospitales y médicos generales eran los mayores proveedores de cuidado a la salud, pero ahora hay más especialidades médicas, y sub especialidades, también existen más instalaciones para el cuidado de la salud especializadas, incluyendo centros de imagen, centros de cirugía ambulatoria y centros de diálisis.Estos avances en tecnología médica han mejorado la habilidad para monitorear, prevenir, diagnosticar, controlar y tratar un gran número de condiciones de salud. Gran variedad de tecnologías han sido adoptadas por el sistema de salud, mejorando la calidad de servicio ofrecido por este, pero también aumentando el volumen de información generado en cada procedimiento.
Análisis predictivo de la morbilidad hospitalaria, buscando definir estrategias para el mejoramiento de la eficiencia en la atención en salud de una IPS de mediana complejidad de la ciudad de Buga
(Universidad Icesi, 2023-07-14) Castro Saldarriaga, Mario Germán; Urcuqui López, Christian Camilo
Este proyecto se llevó a cabo con el objetivo de implementar un modelo predictivo para mejorar la morbilidad hospitalaria en una IPS de mediana complejidad de la ciudad de Buga, buscando identificar estrategias para mejorar la atención médica, planificar y gestionar eficientemente los recursos, y lograr una atención oportuna al paciente. Para lograr el objetivo, se utilizó el modelo CRISP-DM, el cual cuenta con seis fases para el desarrollo de proyectos de minería de datos, entre las cuales se realizó primero la recolección, limpieza y preparación de datos. Con los datos obtenidos, se construyó el modelo predictivo de series de tiempo ARIMA y Holt-Winters, el cual arrojó un MAPE del 10,32% y una capacidad predictiva del 89,68% para el total de pacientes ingresados en la institución, lo cual es muy bueno. Por otro lado, al analizar cada una de las patologías, se obtuvieron resultados entre 22,4% y 39,99% para MAPE y una capacidad predictiva entre 60% y 77,5%, lo que demuestra que para ciertas patologías, el modelo necesita ajustarse con otras técnicas. Entre las conclusiones, se detalla la necesidad de implementar el modelo para la planificación y atención de pacientes, lo que impacta en indicadores clave como la puntualidad de la atención y la minimización de costos hospitalarios. Como trabajo futuro, se propone utilizar técnicas de aprendizaje automático, como redes neuronales, y extender el estudio a más patologías clínicas.
Aplicación de inteligencia artificial y machine learning para la segmentación en GIRO buscando identificar el riesgo de LA/FT según circular básica jurídica de la superintendencia financiera de Colombia, numeral 4.1.1.1, título IV, parte I
(Universidad Icesi, 2024-12-10) Espinosa, Laura Daniela; Jaramillo, Carlos Enrique; Timaran, Andrea Estefania
Este proyecto tiene como objetivo la implementación de un módulo de segmentación dentro del aplicativo GIRO, diseñado para mejorar la identificación y gestión de riesgos asociados con el Lavado de Activos y la Financiación del Terrorismo (LA/FT), en conformidad con las normativas colombianas establecidas por la Superintendencia Financiera. Utilizando técnicas de Inteligencia Artificial (IA) y Machine Learning (ML), se busca clasificar factores de riesgo, como clientes, pro ductos, canales de distribución y jurisdicciones, con el fin de optimizar la eficiencia operativa y reducir los riesgos financieros y reputacionales. La metodología aplicada incluye un análisis exploratorio de datos, seguido de la implementación de modelos de aprendizaje no supervisado: K-means y Clustering Jerárquico, tanto con reducción de dimensionalidad mediante Análisis de Componentes Principales (PCA) como sin esta técnica. La evaluación del desempeño de los modelos se realiza a través de métricas robustas, lo que permite generar segmentaciones precisas que mejoren la toma de decisiones y fortalezcan el cumplimiento de las normativas regulatorias en el sector financiero colombiano.
Componentes de la estructura de un libro para la formulación de proyectos
(Universidad Icesi, 2020-01-01) Valenzuela Ortiz, Nora Graciela; Unigarro Reina, Diego Armando; Granada Aguirre, Luis Felipe; Asesor Tesis
Este proyecto busca encontrar una solución a las dificultades y fallas que se pueden presentar al momento de formular un proyecto, por tal motivo el objetivo general de este proyecto es identificar los componentes que permitan estructurar un libro para la formulación de proyectos, la metodología utilizada es un enfoque cualitativo de tipo documental utilizando técnicas de análisis de contenidos para sistematizar la información colectada de la bibliografía especializada en la formulación de proyectos.
Depuración y evolución de aplicaciones distribuidas y concurrentes usando un modelo de eventos basado en autómatas causales síncronos y asíncronos
(Universidad Icesi, 2012-01-01) Durán Giraldo, David; Arboleda Jiménez, Hugo Fernando; Asesor; Asesor
Este documento presenta una propuesta de un lenguaje que será la base para un framework de eventos que soporta la detección de patrones complejos en sistemas distribuidos, utilizando autómatas para modelar los patrones complejos de interacción entre los nodos que participan en el sistema distribuido. Por medio de la presentación de diferentes errores concurrentes comunes que ocurren o han ocurrido en aplicaciones industriales de esta índole, como el deadlock o los dataraces, se proponen soluciones a este tipo de inconvenientes utilizando el lenguaje propuesto, demostrando su utilidad y aplicabilidad. En concreto, se presentan las siguientes contribuciones: i) el diseño de un lenguaje de programación orientado a eventos con soporte para declaración, ejecución, detección y coordinación de patrones de eventos complejos en sistemas distribuidos, ii) propuestas de definición de autómatas utilizando el lenguaje propuesto para detectar los errores concurrentes comunes identificados en aplicaciones distribuidas industriales y iii) la implementación de un kernel para soportar las abstracciones del lenguaje por medio de una extensión a la librería KETAL, la cual define mecanismos de sincronización de eventos.
Desarrollo de una metodología para la predicción estacional de déficits y excesos hídricos en los departamentos de Quindío, Risaralda y Caldas, mediante técnicas de machine learning
(Universidad Icesi, 2024-12-10) Arias Sinisterra, Diana Carolina; Estrada Vargas, Oscar Hernan; Agudelo, Diego Fernando; Barrios Perez, Camilo
This study presents the development of a methodology to forecast excess or deficit water conditions in the Colombian coffee region (departments of Quindío, Risaralda, and Caldas), using the Standardized Precipitation-Evapotranspiration Index (SPEI) as the main indicator. The first phase of the research focused on the consolidation and homogenization of climatic data, the characterization of the region's water conditions, and the construction of SPEI-3, which estimates the water balance using precipitation and evapotranspiration data from the last 3 months, and SPEI-6, which does so with data from the last 6 months, to understand short and medium-term variations. Firstly, a compilation and homogenization of data from various climatic sources were carried out, adjusting them to a uniform resolution for proper analysis. Subsequently, the study area was characterized, identifying its climatic particularities. In addition, a comparison of the SPEI indices with historical periods of El Niño and La Niña phenomena was performed to highlight SPEI's capacity to reflect the climatic reality of the study area. It was observed that SPEI values coincide with the seasons in which these phenomena occurred in Colombia, thus validating its usefulness as an indicator of droughts and water excesses. CPT software was used to generate the SPEI-3 and SPEI-6 forecasts for March 2024. The second phase of the project consisted of testing other predictors to perform the prediction using CCA and a machine learning model, to compare the results obtained by both methods. Finally, the importance of forecasting SPEI with greater accuracy is highlighted, as this would not only reflect the climatic reality more precisely but would also provide a valuable tool for planning and decision-making in industrial and agricultural sectors.
Detección automática de armas mediante deep learning para la seguridad urbana en Colombia
(Universidad Icesi, 2025-06-26) Burgos Tovar, Santiago; Ospitia Medina, Yesid
Este proyecto busca desarrollar un sistema integral de detección automática de armas basado en técnicas de aprendizaje profundo para mejorar la seguridad ciudadana en entornos urbanos colombianos. Mediante la implementación de modelos YOLO (You Only Look Once) y técnicas de clasificación especializadas, se busca crear una herramienta inteligente de videovigilancia capaz de identificar y localizar armas de fuego y armas blancas en tiempo real. El sistema se diseñó considerando las características específicas de los espacios urbanos colombianos, como la alta densidad poblacional, la diversidad de entornos y las condiciones de iluminación variables. Se utilizaron múltiples conjuntos de datos con más de 5000 imágenes anotadas, implementando estrategias de aumento de datos y balanceo de clases para optimizar su rendimiento. La evaluación del sistema incluye pruebas en escenarios urbanos reales y con objetos similares que podrían generar falsos positivos.
Detección temprana del diagnostico de diabetes tipo II a partir de variables no clínicas utilizando técnicas de Machine Learning
(Universidad Icesi, 2023-07-12) Ome Narváez, Leidy Tatiana; Ordóñez Quintero, Danny Guillermo; Diaz Cely, Javier
La diabetes tipo II es una enfermedad crónica y grave que se caracteriza por niveles elevados de glucosa en la sangre debido a la incapacidad del cuerpo para producir o utilizar eficazmente la insulina. Si no se controla a largo plazo, esta deficiencia de insulina puede causar daño a varios órganos del cuerpo, lo que lleva a complicaciones discapacitantes y potencialmente fatales como enfermedades cardiovasculares, neuropatía, nefropatía y problemas oculares. Por lo tanto, el diagnóstico y tratamiento tempranos de la diabetes tipo II son de vital importancia para prevenir el desarrollo y las complicaciones de las enfermedades cardiovasculares y renales. Por esta razón, este proyecto de tesis formuló el desarrollo de un modelo predictivo para el diagnóstico temprano de esta enfermedad. Para el desarrollo de este modelo, se tomó en cuenta información no clínica del paciente, como: datos demográficos, datos sociodemográficos, actividad física y antecedentes familiares. Se utilizaron datos de 204,572 usuarios afiliados a una IPS a nivel nacional, donde el 20.4% están diagnosticados con diabetes tipo II. Se entrenaron modelos de clasificación supervisada como Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost) y Multilayer Perceptron (MLP), y se descubrió que XGBoost era el mejor modelo para predecir la diabetes tipo II con una métrica de rendimiento ROC-AUC del 77 %.
Detección, análisis y caracterización de anomalías en los logs de la Armada Nacional mediante métodos de inteligencia artificial
(Universidad Icesi, 2024-12-10) García Gaviria, Yasmin Johanna; Sosa, Uram Anibal; Sosa, Uram Anibal
El ámbito de la ciberseguridad ha experimentado un incremento notable en la frecuencia y sofisticación de los ciberataques en los últimos años, sobre todo aquellos destinados a infraestructuras críticas cibernéticas. El aumento no solo ha afectado a sectores como la energía, la salud y las finanzas, sino que también ha convertido a entidades militares y de defensa en objetivos prioritarios para estos actores maliciosos. En este contexto, la Armada Nacional se ha transformado en un objetivo constante, representando una amenaza creciente para la seguridad cibernética y la integridad de las operaciones de las Fuerzas Armadas, por lo tanto, para la seguridad nacional.
Diseño de un nodo tecnológico para proveer la conectividad de última milla en zonas rurales aisladas del distrito de Buenaventura.
(Universidad Icesi, 2020-01-01) Barahona Sepúlveda, Yeison; Pachón de la Cruz, Alvaro; Asesor Tesis
En la actualidad existe reducida cobertura y enlace a internet, para los pobladores de las comunidades de la zona rural del Distrito de Buenaventura, Valle del Cauca. Como una alternativa a la cobertura educativa a través de la construcción de sedes físicas en el litoral pacifico colombiano, la Universidad de Pacífico1 decidió acudir a las nuevas tecnologías de la información y las comunicaciones TIC para desarrollar un Campus Virtual, que ofrezca a todos los jóvenes de la región pacífica, en edad de ingresar a la educación superior, una opción más económica, democrática y oportuna.
Estimación de modelos para el pronóstico de precios en el sector agropecuario en el distrito especial de Buenaventura, una aproximación econométrica usando el lenguaje de programación R.
(Universidad Icesi, 2021-01-01) Gamarra Palacios, José Luis; Micolta Garzón, John Mario; Alonso Cifuentes, Julio César; Asesor Tesis
El pronóstico de precios de productos es un problema ampliamente documentado, en la academia y la industria. El pronosticar los precios permite una debida planeación en la cantidad de productos que se pueden sacar a la venta. Además, permite estimar las ganancias que serán obtenidas en el futuro si los productos tienen determinado precio y, si las condiciones del mercado son relativamente estables y parecidas a las condiciones del pasado. En este trabajo abordaremos el problema de pronosticar precios para tres productos del sector agrícola en el Distrito Especial de Buenaventura: Yuca Chirosa, la Piña Gold y el Banano Criollo. Esto es importante para los campesinos pues, posibilitará la creación de planes de contingencia respecto a la siembra y cosecha de estos productos, basados en técnicas de ciencias de datos como complemento a las técnicas heurísticas, que son usadas por los campesinos basados en el conocimiento del negocio. Las estimaciones de los pronósticos de precios de los productos antes mencionados se realizaron a través de técnicas econométricas para series de tiempo mediadas por el lenguaje de programación R, para ello se usará la metodología CRISP-DM.
Evaluación de modelos de pronósticos de ventas para estimar la demanda mensual en una empresa de Cintas y Adhesivos en Colombia
(Universidad Icesi, 2023-07-15) Osorio Prada, James; Rodas Suazo, Fernando; Agudelo Burbano, Diego Fernando
En este trabajo se formuló una propuesta para abordar los altos niveles de inventario en una empresa de cintas y adhesivos , donde se manifiesta que dichos niveles han sido producto de una baja efectividad de los modelos tradicionales de pronóstico de ventas , generando un sobrestimado de pronóstico en comparación con la demanda real, donde posteriormente se ha utilizado este pronóstico para calcular el reaprovisionamiento de inventario con anticipación según su tiempo de producción, pero al no cumplirse dicho estimado se generaron excesos de inventario y costos adicionales para su almacenamiento. Para desarrollarlo se propuso la metodología CRISP-DM, que considera iniciar con una comprensión del negocio y preparación de los datos, definir un protocolo de evaluación que permita estimar el desempeño de los modelos seleccionados, evaluación de modelos, generar resultados, identificar los modelos que pueden ser utilizados para pronosticar la demanda de las ventas en periodos mensuales y realizar la validación de los modelos. Se propone la evaluación de cuatro modelos de pronóstico: Promedio móvil, suavización exponencial triple (Holt-Winters), ARIMA y Prophet. Los cuales han sido seleccionados debido a su efectividad en la predicción de series de tiempo. A través de esta evaluación, se espera identificar el modelo que mejor se adapte a las características de la demanda de productos, lo que permitirá una mejor planificación de la cadena de suministro y de forma indirecta una reducción en los niveles de inventarios. Finalmente, después de todo el trabajo desarrollado y de la validación realizada se puede afirmar que el enfoque de solución propuesto y la metodología empleada para obtenerla resultan apropiados.
Explorando la opinión de los usuarios de Twitter: análisis de sentimientos de marca mediante Deep Learning
(Universidad Icesi, 2023-07-09) Soto Sarria, Diego Fernando; Muñoz Bacca, Julian; Diaz Cely, Javier Gustavo
Identificar efectivamente las oportunidades de mejora es fundamental para toda organización; es por esto, que es de gran interés para las mismas tener conocimiento de la percepción de su marca en redes sociales como Twitter, donde sus clientes pueden expre sarse pública y libremente. Este estudio propone una solución teórico - práctica aplicando técnicas de minería de texto y Deep Learning sobre los tweets recopilados de los usuarios en 3 de las principales empresas prestadoras de servicios de telecomunicacio nes como son Movistar, Claro y Tigo. Comparando las métricas de evaluación, en dos de las redes neuronales recurrentes mayormente usados en el análisis de sentimiento de texto, como son L ST M (Long Short - Term Memory) y GRU (Gated Recurrent Units). Una vez realizada esta comparación, tanto GRU como LSTM obtuvieron muy buenos resultados en la métrica de evaluación y con poco sobre ajuste. Las pruebas ejecutadas con los modelos seleccionados m ostraron una alta precisión en la clasificación de Tweets co n sentimiento Negativo, con un porcentaje de Sensibilidad (Recall) en los datos de validación superiores al 94%. Sin embargo, en los Tweets con sentimientos No Negativos, la precisión fue más baja, con un a Especificidad (Specificity) del 68%, 82.4% y 42.4% para Movistar, Claro y Tigo respectivamente, siendo significativamente bajo para este último. La baja precisión para clasificar los Tweets no Negativos, se atribuyen a la gran variedad de temas para esta categoría, además de la baja cantidad de datos en comparación con los Negativos. Por lo tanto, para futuros estudios se recomienda el uso de un set de datos (Tweets) mucho más grande para mejorar la precisión en la clasificación de ambos grupos . Gracias a esta clasificación y la identificación de aspectos negativos detectados en los diferentes comentarios en Twitter l a solución propuesta permite gestionar de manera efectiva la experiencia de usuar io mediante un tablero de control desarrollado en Power BI , este facilitará la supervisión de su presencia en esta red social, generando información clave que permita a la organización desarrollar estrategias de negocio basadas en datos que busquen abordar los problemas de manera efectiva y mejorar la calidad del servicio para satisfacer las necesidades del mercado.
Factores sociodemográficos, clínicos y conductuales presentes que caracterizan el riesgo cardiovascular en una muestra de pacientes de la ESE Oriente de Cali entre 2016 a 2023
(Universidad Icesi, 2024-12-09) Cely Ospina, Jovany; Peña Ocampo, Víctor Alfonso; Andrade Bonilla, Nelson Andrés
La enfermedad cardiovascular es la principal causa de morbimortalidad a nivel mundial, y su desarrollo está relacionado con diversos factores de riesgo. Por ello, la prevención depende de identificar y controlar estos factores para influir en el curso clínico de la enfermedad. En este proyecto se propuso la creación de modelos de predicción del riesgo cardiovascular a partir de un dataset de pacientes que son atendidos en una empresa social del estado (ESE) de Cali. El conjunto de datos se dividió en dos subconjuntos, según la fecha de toma de la data, y se realizó una selección de variables en cada uno con el objetivo de analizar cómo esta elección afecta el desempeño de los diferentes modelos. Finalmente, con base en métricas de desempeño, se definió el modelo de random forest como el mejor modelo, identificando las variables clave que influyen en la variable objetivo y las variables sociodemográficas de mayor peso con el fin de que estas puedan ser consideradas por las entidades de salud en los procesos de prevención.
Guía para integrar cuatro áreas claves del modelo CMM mejorar los procesos de desarrollo de software
(Universidad Icesi, 2006-01-01) Tobón, Martha Cecilia
La presente guía pretende presentar a los desarrolladores tanto de pequeñas como de medianas empresas las herramientas existentes para la integración de cuatro áreas claves pertenecientes a los niveles del proceso de madurez: Requirements Management, Software Quality Assurance y Software Configuration Management del nivel Repetible (2), y Organization Process Focus del nivel Definido (3). La idea es que sirva como un manual de referencia "amigable" donde puedan encontrar tanto la parte teórica como la parte práctica, entendiéndose ésta última como la explicación de cómo se implementan cada una de las herramientas para mejorar sus procesos y ubicarse en un buen nivel dentro del modelo CMM junto con las cualidades que deberían tener en caso de que decidan desarrollar una para uso de la empresa y para comercializar. Hay que recordar que el modelo CMM describe los principios y practicas para mejorar los procesos de software, y es su objetivo ayudar a las organizaciones desarrolladoras de software a mejorar sus procesos a través de una forma evolucionada que parte desde identificar procesos confusos hasta convertirlos en procesos disciplinados. Ha definido cinco niveles de madurez, cada uno de ellos con diferentes actividades y objetivos que permitirán ubicar a las empresas desarrolladoras de software en uno de ellos de acuerdo a la ejecución y cumplimiento de las prácticas que los conforman.
INRAE - Inteligencia artificial explicativa soft sensor
(Universidad Icesi, 2025-06-27) Cabrera Lozano, Alvaro José; Aragón, C.; Corrales Muñoz, David Camilo
Este trabajo presenta el desarrollo de un sensor blando aplicado al proceso de fermentación industrial, combinando modelos de aprendizaje automático de caja negra con técnicas de inteligencia artificial explicable (XAI). El objetivo del proyecto es diseñar un sistema predictivo capaz de estimar la concentración de penicilina a partir de datos históricos del proceso, mediante el uso de redes neuronales recurrentes (LSTM). Estos modelos, si bien precisos, presentan dificultades de interpretación debido a su naturaleza opaca. Para abordar este desafío, se integran técnicas XAI para visualizar y comprender la influencia de las variables más relevantes, transformando los modelos en herramientas más transparentes y confiables. La metodología incluye el uso del conjunto de datos IndPenSim, que simula condiciones normales y de falla en un entorno de fermentación a escala industrial. Además, se construye un prototipo de visualización para facilitar la interpretación de las predicciones y fortalecer la toma de decisiones basada en datos. El proyecto responde a la necesidad de lograr un equilibrio entre precisión y explicabilidad, dos pilares esenciales en la industria 4.0.
Modelo de aprendizaje no supervisado para la priorización de inventarios cíclicos.
(Universidad Icesi, 2021-01-01) Nakano Edgar, Ryuma Jonathan; Torres, Edgar Felipe
Es común encontrar discrepancias en los sistemas de información de inventarios, entre las cantidades de los productos que el sistema dice tener y las cantidades físicas en la bodega. Existen múltiples causas para esto, principalmente errores humanos y del propio sistema de información. Estas discrepancias pueden ocasionar serios problemas tanto en las operaciones de bodega como en la relación con los clientes, ya que pueden generar demoras en los despachos, y peor aún, compromisos con clientes imposibles de cumplir. Los conteos cíclicos periódicos son una herramienta útil para corregirlas, pero para que sean efectivos, es de vital importancia identificar las discrepancias lo más temprano posible, y así lograr corregirlas antes de que tengan consecuencias negativas para el negocio. Lo anterior no es nada fácil de lograr cuando se tienen bodegas amplias con un alto número de productos.
Modelo de machine learning para clasificación de pacientes con glaucoma en la población del Valle del Cauca
(Universidad Icesi, 2022-01-01) Cardona Suárez, Juan Camilo; Fernández Agudelo, Fabio Nelson; Muñoz, Edgar; Rivera Hoyos, Carlos; Asesor Tesis; Asesor Tesis
En este trabajo de grado se formuló una propuesta para abordar el problema de modelos de Machine Learning (ML) no adaptados a las características raciales/étnicas de la población del Valle del Cauca para clasificar pacientes con Glaucoma. Para hacerlo, se usó la metodología CRIPS-DM (CRoss Industry Standard Process for Data Mining) Project que aborda las seis fases del ciclo de un proyecto de analítica de datos. Los modelos, técnicas y herramientas de la ciencia de datos usados para abordar la solución al problema fueron modelos de Deep Learning usando Redes Neuronales Convolucionales y de Transfer Learning usando Inception V3. La validación a la que fue sometida la propuesta consistió en evaluar los modelos entrenados en la muestra de test que fue reservada y se analizaron los resultados obtenidos en una matriz de confusión, obteniendo que el mejor modelo para clasificación del glaucoma es el modelo Inception V3 como el mejor clasificador, con un AUC ROC en el set de validación del 0.8706 y 0.9084 en el set de test, esto se logró al contar con un gran número de imágenes para entrenamiento y un modelo que fue previamente preentrenado, disminuyendo los efectos adversos de contar con una baja cantidad de datos y clases desbalanceadas. Finalmente, se puede afirmar que el enfoque de solución propuesto y la metodología empleada para obtener los resultados reportados son aceptables y permiten a futuro seguir explorando modelos más precisos.
Modelo de negocio ASP
(Universidad Icesi, 2002-12-01) Castaño Hurtado, Julio César
Resumen ejecutivo. El equipo de trabajo. Mercado, clientes y competencia. Estrategia. Mercadeo y comercialización. Estructura de la organización. Análisis financiero.
Modelo de predicción de diabetes tipo 2 (DMT2) a partir de variables no clínicas en una población asegurada del suroccidente colombiano perteneciente al régimen subsidiado
(Universidad Icesi, 2023-07-10) Castro Salamanca, Larry Farid; López, Juan Esteban; Ordóñez, José Armando
Este trabajo de grado desarrolla un modelo de aprendizaje supervisado para la detección temprana de Diabetes Mellitus Tipo 2 en poblaciones vulnerables del suroccidente colombiano. Utilizando la metodología CRISP-DM, se analizaron datos no clínicos (sociales y ambientales) de una EPS del régimen subsidiado. Debido al fuerte desbalance de clases (6.3% de prevalencia), se aplicaron técnicas de muestreo como SMOTE y Undersampling, priorizando la sensibilidad (recall) como métrica principal. Los resultados demuestran que algoritmos como Naive Bayes y XGBoost (con técnicas de muestreo) logran un equilibrio entre exactitud y sensibilidad, ofreciendo una alternativa eficiente y de bajo costo para la gestión del riesgo en zonas rurales de difícil acceso.

Examinar

Examinando Maestría en Ciencia de Datos por Título