Predicción temprana de averías en flotas de autobuses mediante machine learning para optimizar la gestión y rentabilidad a largo plazo
| dc.audience | Todo Público | |
| dc.contributor.advisor | Ordoñez Cordoba, Jose Armando | |
| dc.contributor.author | Romero Velásquez, Laureano | |
| dc.coverage.spatial | Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees. | |
| dc.date.accessioned | 2026-02-24T20:58:22Z | |
| dc.date.available | 2026-02-24T20:58:22Z | |
| dc.date.issued | 2024-12-10 | |
| dc.description.abstract | Este trabajo de grado tiene como objetivo desarrollar modelos predictivos para identificar posibles fallas en los buses del Consorcio Express, el principal operador privado de transporte en Colombia. Bajo una metodología rigurosa de ciencia de datos, la investigación abarca desde la definición precisa del problema y la colaboración entre departamentos para acceder a fuentes de información, hasta la implementación de procesos de ETL (Extracción, Transformación y Carga) para limpiar y enriquecer los datos. Utilizando principalmente el lenguaje Python y librerías especializadas como Pandas, Scikit-learn y SQLAlchemy, se están evaluando diversos algoritmos tradicionales, incluyendo redes neuronales, máquinas de soporte vectorial y bosques aleatorios. Tras un proceso de validación, se selecciona el modelo de Árbol de Decisión (Decision Tree) como el más óptimo, buscando alcanzar un F1 Score de 0.856. Finalmente, la solución se integra en la nube de Azure, donde el modelo procesa nuevos datos y genera resultados en formato .parquet, los cuales son visualizados por los usuarios finales a través de tableros de Power BI accesibles desde cualquier dispositivo. | spa |
| dc.description.abstract | This graduation project aims to develop a predictive model to identify mechanical failures in the bus fleet of Consorcio Express, Colombia's leading private transport operator. Following a rigorous data science methodology, the process ranges from problem definition and cross-departmental collaboration for data acquisition to the implementation of ETL (Extraction, Transformation, and Loading) processes to clean and enrich the information. Using Python as the primary language along with specialized libraries such as Pandas, Scikit-learn, and SQLAlchemy, several traditional algorithms are being evaluated, including neural networks, Support Vector Machines (SVM), and Random Forests. After a thorough validation process, the Decision Tree model is being selected as the most effective, aiming for an F1 Score of 0.856. Finally, the solution is being integrated into the Azure cloud, where the model will process new data and generate results in .parquet format to be visualized by end-users via Power BI dashboards accessible from any mobile or desktop device. | eng |
| dc.description.degreelevel | Magíster | |
| dc.description.degreename | Trabajo de grado para optar al título de Magister en Ciencia de Datos | |
| dc.description.tableofcontents | 1. Integrantes y directores del trabajo de grado 5 -- 2. Título del trabajo de grado 5 -- 3. Contexto y antecedentes 5 -- 4. Planteamiento del problema y justificación 7 -- 5. Objetivos del proyecto 9 -- 5.1. Objetivo general 9 -- 5.2. Objetivos específicos 9 -- 6. Marco teórico 9 -- 6.1. Dominio del problema 9 -- 6.1.1. Variables Seleccionadas 10 -- 7. Estado del Arte 11 -- 7.1. Trabajos seleccionados 12 -- 8. Marco Metodológico 13 -- 9. Metodología 15 -- 9.1. Planteamiento y entendimiento del problema 16 -- 9.1.1. Recopilación de datos relevantes relacionados con el problema 16 -- 9.1.2. Identificación de las métricas de evaluación adecuadas 17 -- 9.2. Recopilación y preparación de datos 17 -- 9.2.1. Reuniones preliminares para identificar las fuentes de datos 17 -- 9.2.2. Manejo de datos 18 -- 9.2.2.1. Importación de librerías 18 -- 9.2.2.2. Importación fuentes de datos 21 -- 9.2.3. ETL y descripción de variables 22 -- 9.3. Entendimiento de los datos 25 -- 9.3.1. Análisis Exploratorio 25 -- 9.3.1.1. Análisis gráfico de los datos 25 -- 9.3.1.2. Ajuste y validación de tabla minable - imputación 29 -- 9.3.1.3. Manejo de valores atípicos 29 -- 9.3.1.4. Estandarización de variables 29 -- 9.3.1.5. Análisis descriptivo de las variables cualitativas 30 -- 9.3.1.6. Análisis de asociación cualitativo 31 -- 9.3.1.7. Agrupaciones variables cualitativas 30 -- 9.3.1.8. Dumización variables cualitativas 32 -- 9.4. Modelado 33 -- 9.4.1. Selección de variables 33 -- 9.4.2. División grupo de datos en conjunto de entrenamiento y prueba 33 -- 9.4.3. Establecimiento de los estadísticos de evaluación 33 -- 9.4.4. Modelo de regresión logística 35 -- 9.4.5. Modelo de árboles de decisión 36 -- 9.4.6. Modelo de red neuronal 37 -- 9.4.7. Modelo SVM 38 -- 9.4.8. Modelo Random Forest 38 -- 9.5. Ajuste de los modelos haciendo uso del punto de corte óptimo 39 -- 9.6. Elección del algoritmo de machine learning más adecuado 40 -- 9.7. Implementación y puesta en producción del mejor modelo 40 -- 9.8. Construcción del modelo de BI para seguimiento de rendimiento del modelo 40 -- 9.9. Conclusiones y recomendaciones 42 -- 10. Bibliografía 44 -- 11. Anexo 45 | spa |
| dc.format.extent | 45 páginas | |
| dc.format.medium | Digital | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.OLIB | https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366444 | |
| dc.identifier.instname | instname:Universidad Icesi | |
| dc.identifier.reponame | reponame:Biblioteca Digital | |
| dc.identifier.repourl | repourl:https://repository.icesi.edu.co/ | |
| dc.identifier.uri | https://hdl.handle.net/10906/130570 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Icesi | |
| dc.publisher.faculty | Barberi de Ingeniería, Diseño y Ciencias Aplicadas | |
| dc.publisher.place | Santiago de Cali | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.relation.references | Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer. https://link.springer.com/book/10.1007/978-3-319-14142-8 | spa |
| dc.relation.references | Brownlee, J. (2019). Machine Learning Mastery With Python. Machine Learning Mastery. https://machinelearningmastery.com/machine-learning-with-python/ | spa |
| dc.relation.references | Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media. https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/ | spa |
| dc.relation.references | Daniel Peña Sánchez de Rivera. (1989). Estadística Modelos y métodos 2. Modelos lineales y series temporales. | spa |
| dc.relation.references | de Ian H. Witten, Eibe Frank y Mark A. Hall (2016). Data Mining: Practical Machine Learning Tools and Techniques". | spa |
| dc.relation.references | Icesi, apuntes de clases maestría Ciencia de datos. | spa |
| dc.relation.references | McKinney, W. (2017). Python for Data Analysis. O'Reilly Media. Retrieved from https://www.oreilly.com/library/view/python-for-data/9781491957653/ | spa |
| dc.relation.references | Roberto Behar G. Mario Yepes. (1996). Estadística con un enfoque descriptivo. | spa |
| dc.relation.references | SAS (2011). Applied Analytics Using SAS Enterprise Guide. Course Notes. | spa |
| dc.relation.references | SAS (2012). Statistics 1: Introduction to ANOVA, Regression and Logistic Regression. Course Notes. | spa |
| dc.relation.references | SAS (2012). Statistics 2: ANOVA and Regression. Course Notes. | spa |
| dc.relation.references | Stanley I. Grossman (2001). Algebra lineal, quinta edición | spa |
| dc.relation.references | Razonpublica.com. https://razonpublica.com/los-nuevos-buses-de-transmilenio-no-tan-buenos-ni-tan-malos/ | spa |
| dc.relation.references | TransMilenio S.A. (2023). Datos Abiertos. https://datosabiertos-transmilenio.hub.arcgis.com/ | spa |
| dc.relation.references | TransMilenio S.A. (2023). Manual de Indicadores de Calidad del Servicio. https://www.transmilenio.gov.co/ | spa |
| dc.relation.references | Zhou, Z. H. (2021). Machine Learning. Springer. Retrieved from https://www.springer.com/gp/book/9789811519827 | spa |
| dc.rights | EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.license | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject.proposal | Predicción de averías | spa |
| dc.subject.proposal | Machine learning | spa |
| dc.subject.proposal | Flotas de autobuses | spa |
| dc.subject.proposal | Optimización de la gestión | spa |
| dc.subject.proposal | Consorcio Express | spa |
| dc.subject.proposal | Failure prediction | eng |
| dc.subject.proposal | Machine learning | eng |
| dc.subject.proposal | Bus fleets | eng |
| dc.subject.proposal | Management optimization | eng |
| dc.subject.proposal | Consorcio Express | eng |
| dc.subject.proposal | Tesis de Maestría en Ciencia de Datos | spa |
| dc.title | Predicción temprana de averías en flotas de autobuses mediante machine learning para optimizar la gestión y rentabilidad a largo plazo | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_ba08 | |
| dc.type.coarversion | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |
| dc.type.driver | info:eu-repo/semantics/masterThesis | |
| dc.type.local | Tesis de maestría | |
| dc.type.version | info:eu-repo/semantics/publishedVersion |
