Predicción temprana de averías en flotas de autobuses mediante machine learning para optimizar la gestión y rentabilidad a largo plazo
Archivos
Fecha
Autores
Director de tesis/Asesor
Título de la revista
ISSN de la revista
Título del volumen
Publicador
Editor
Compartir
Resumen
Este trabajo de grado tiene como objetivo desarrollar modelos predictivos para identificar posibles fallas en los buses del Consorcio Express, el principal operador privado de transporte en Colombia. Bajo una metodología rigurosa de ciencia de datos, la investigación abarca desde la definición precisa del problema y la colaboración entre departamentos para acceder a fuentes de información, hasta la implementación de procesos de ETL (Extracción, Transformación y Carga) para limpiar y enriquecer los datos. Utilizando principalmente el lenguaje Python y librerías especializadas como Pandas, Scikit-learn y SQLAlchemy, se están evaluando diversos algoritmos tradicionales, incluyendo redes neuronales, máquinas de soporte vectorial y bosques aleatorios. Tras un proceso de validación, se selecciona el modelo de Árbol de Decisión (Decision Tree) como el más óptimo, buscando alcanzar un F1 Score de 0.856. Finalmente, la solución se integra en la nube de Azure, donde el modelo procesa nuevos datos y genera resultados en formato .parquet, los cuales son visualizados por los usuarios finales a través de tableros de Power BI accesibles desde cualquier dispositivo.
Abstract
This graduation project aims to develop a predictive model to identify mechanical failures in the bus fleet of Consorcio Express, Colombia's leading private transport operator. Following a rigorous data science methodology, the process ranges from problem definition and cross-departmental collaboration for data acquisition to the implementation of ETL (Extraction, Transformation, and Loading) processes to clean and enrich the information. Using Python as the primary language along with specialized libraries such as Pandas, Scikit-learn, and SQLAlchemy, several traditional algorithms are being evaluated, including neural networks, Support Vector Machines (SVM), and Random Forests. After a thorough validation process, the Decision Tree model is being selected as the most effective, aiming for an F1 Score of 0.856. Finally, the solution is being integrated into the Azure cloud, where the model will process new data and generate results in .parquet format to be visualized by end-users via Power BI dashboards accessible from any mobile or desktop device.

