Logo_Icesi
 

Predicción temprana de averías en flotas de autobuses mediante machine learning para optimizar la gestión y rentabilidad a largo plazo

dc.audienceTodo Público
dc.contributor.advisorOrdoñez Cordoba, Jose Armando
dc.contributor.authorRomero Velásquez, Laureano
dc.coverage.spatialCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned2026-02-24T20:58:22Z
dc.date.available2026-02-24T20:58:22Z
dc.date.issued2024-12-10
dc.description.abstractEste trabajo de grado tiene como objetivo desarrollar modelos predictivos para identificar posibles fallas en los buses del Consorcio Express, el principal operador privado de transporte en Colombia. Bajo una metodología rigurosa de ciencia de datos, la investigación abarca desde la definición precisa del problema y la colaboración entre departamentos para acceder a fuentes de información, hasta la implementación de procesos de ETL (Extracción, Transformación y Carga) para limpiar y enriquecer los datos. Utilizando principalmente el lenguaje Python y librerías especializadas como Pandas, Scikit-learn y SQLAlchemy, se están evaluando diversos algoritmos tradicionales, incluyendo redes neuronales, máquinas de soporte vectorial y bosques aleatorios. Tras un proceso de validación, se selecciona el modelo de Árbol de Decisión (Decision Tree) como el más óptimo, buscando alcanzar un F1 Score de 0.856. Finalmente, la solución se integra en la nube de Azure, donde el modelo procesa nuevos datos y genera resultados en formato .parquet, los cuales son visualizados por los usuarios finales a través de tableros de Power BI accesibles desde cualquier dispositivo.spa
dc.description.abstractThis graduation project aims to develop a predictive model to identify mechanical failures in the bus fleet of Consorcio Express, Colombia's leading private transport operator. Following a rigorous data science methodology, the process ranges from problem definition and cross-departmental collaboration for data acquisition to the implementation of ETL (Extraction, Transformation, and Loading) processes to clean and enrich the information. Using Python as the primary language along with specialized libraries such as Pandas, Scikit-learn, and SQLAlchemy, several traditional algorithms are being evaluated, including neural networks, Support Vector Machines (SVM), and Random Forests. After a thorough validation process, the Decision Tree model is being selected as the most effective, aiming for an F1 Score of 0.856. Finally, the solution is being integrated into the Azure cloud, where the model will process new data and generate results in .parquet format to be visualized by end-users via Power BI dashboards accessible from any mobile or desktop device.eng
dc.description.degreelevelMagíster
dc.description.degreenameTrabajo de grado para optar al título de Magister en Ciencia de Datos
dc.description.tableofcontents1. Integrantes y directores del trabajo de grado 5 -- 2. Título del trabajo de grado 5 -- 3. Contexto y antecedentes 5 -- 4. Planteamiento del problema y justificación 7 -- 5. Objetivos del proyecto 9 -- 5.1. Objetivo general 9 -- 5.2. Objetivos específicos 9 -- 6. Marco teórico 9 -- 6.1. Dominio del problema 9 -- 6.1.1. Variables Seleccionadas 10 -- 7. Estado del Arte 11 -- 7.1. Trabajos seleccionados 12 -- 8. Marco Metodológico 13 -- 9. Metodología 15 -- 9.1. Planteamiento y entendimiento del problema 16 -- 9.1.1. Recopilación de datos relevantes relacionados con el problema 16 -- 9.1.2. Identificación de las métricas de evaluación adecuadas 17 -- 9.2. Recopilación y preparación de datos 17 -- 9.2.1. Reuniones preliminares para identificar las fuentes de datos 17 -- 9.2.2. Manejo de datos 18 -- 9.2.2.1. Importación de librerías 18 -- 9.2.2.2. Importación fuentes de datos 21 -- 9.2.3. ETL y descripción de variables 22 -- 9.3. Entendimiento de los datos 25 -- 9.3.1. Análisis Exploratorio 25 -- 9.3.1.1. Análisis gráfico de los datos 25 -- 9.3.1.2. Ajuste y validación de tabla minable - imputación 29 -- 9.3.1.3. Manejo de valores atípicos 29 -- 9.3.1.4. Estandarización de variables 29 -- 9.3.1.5. Análisis descriptivo de las variables cualitativas 30 -- 9.3.1.6. Análisis de asociación cualitativo 31 -- 9.3.1.7. Agrupaciones variables cualitativas 30 -- 9.3.1.8. Dumización variables cualitativas 32 -- 9.4. Modelado 33 -- 9.4.1. Selección de variables 33 -- 9.4.2. División grupo de datos en conjunto de entrenamiento y prueba 33 -- 9.4.3. Establecimiento de los estadísticos de evaluación 33 -- 9.4.4. Modelo de regresión logística 35 -- 9.4.5. Modelo de árboles de decisión 36 -- 9.4.6. Modelo de red neuronal 37 -- 9.4.7. Modelo SVM 38 -- 9.4.8. Modelo Random Forest 38 -- 9.5. Ajuste de los modelos haciendo uso del punto de corte óptimo 39 -- 9.6. Elección del algoritmo de machine learning más adecuado 40 -- 9.7. Implementación y puesta en producción del mejor modelo 40 -- 9.8. Construcción del modelo de BI para seguimiento de rendimiento del modelo 40 -- 9.9. Conclusiones y recomendaciones 42 -- 10. Bibliografía 44 -- 11. Anexo 45spa
dc.format.extent45 páginas
dc.format.mediumDigital
dc.format.mimetypeapplication/pdf
dc.identifier.OLIBhttps://biblioteca2.icesi.edu.co/cgi-olib/?oid=366444
dc.identifier.instnameinstname:Universidad Icesi
dc.identifier.reponamereponame:Biblioteca Digital
dc.identifier.repourlrepourl:https://repository.icesi.edu.co/
dc.identifier.urihttps://hdl.handle.net/10906/130570
dc.language.isospa
dc.publisherUniversidad Icesi
dc.publisher.facultyBarberi de Ingeniería, Diseño y Ciencias Aplicadas
dc.publisher.placeSantiago de Cali
dc.publisher.programMaestría en Ciencia de Datos
dc.relation.referencesAggarwal, C. C. (2015). Data Mining: The Textbook. Springer. https://link.springer.com/book/10.1007/978-3-319-14142-8spa
dc.relation.referencesBrownlee, J. (2019). Machine Learning Mastery With Python. Machine Learning Mastery. https://machinelearningmastery.com/machine-learning-with-python/spa
dc.relation.referencesGéron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media. https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/spa
dc.relation.referencesDaniel Peña Sánchez de Rivera. (1989). Estadística Modelos y métodos 2. Modelos lineales y series temporales.spa
dc.relation.referencesde Ian H. Witten, Eibe Frank y Mark A. Hall (2016). Data Mining: Practical Machine Learning Tools and Techniques".spa
dc.relation.referencesIcesi, apuntes de clases maestría Ciencia de datos.spa
dc.relation.referencesMcKinney, W. (2017). Python for Data Analysis. O'Reilly Media. Retrieved from https://www.oreilly.com/library/view/python-for-data/9781491957653/spa
dc.relation.referencesRoberto Behar G. Mario Yepes. (1996). Estadística con un enfoque descriptivo.spa
dc.relation.referencesSAS (2011). Applied Analytics Using SAS Enterprise Guide. Course Notes.spa
dc.relation.referencesSAS (2012). Statistics 1: Introduction to ANOVA, Regression and Logistic Regression. Course Notes.spa
dc.relation.referencesSAS (2012). Statistics 2: ANOVA and Regression. Course Notes.spa
dc.relation.referencesStanley I. Grossman (2001). Algebra lineal, quinta ediciónspa
dc.relation.referencesRazonpublica.com. https://razonpublica.com/los-nuevos-buses-de-transmilenio-no-tan-buenos-ni-tan-malos/spa
dc.relation.referencesTransMilenio S.A. (2023). Datos Abiertos. https://datosabiertos-transmilenio.hub.arcgis.com/spa
dc.relation.referencesTransMilenio S.A. (2023). Manual de Indicadores de Calidad del Servicio. https://www.transmilenio.gov.co/spa
dc.relation.referencesZhou, Z. H. (2021). Machine Learning. Springer. Retrieved from https://www.springer.com/gp/book/9789811519827spa
dc.rightsEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.proposalPredicción de averíasspa
dc.subject.proposalMachine learningspa
dc.subject.proposalFlotas de autobusesspa
dc.subject.proposalOptimización de la gestiónspa
dc.subject.proposalConsorcio Expressspa
dc.subject.proposalFailure predictioneng
dc.subject.proposalMachine learningeng
dc.subject.proposalBus fleetseng
dc.subject.proposalManagement optimizationeng
dc.subject.proposalConsorcio Expresseng
dc.subject.proposalTesis de Maestría en Ciencia de Datosspa
dc.titlePredicción temprana de averías en flotas de autobuses mediante machine learning para optimizar la gestión y rentabilidad a largo plazospa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_ba08
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.localTesis de maestría
dc.type.versioninfo:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
T03070.pdf
Tamaño:
2.41 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: