El día en que perdí el pickle bueno en el data lake de Microsoft Fabric
Voy a empezar con un caso que lo más seguro a más de uno le suena. Tiene un modelo entrenado. Funciona. Lo guarda como .pkl en el lago de datos con un nombre tipo modelo_v2_final_BUENO.pkl, y sigue con su vida. Dos semanas después alguien pregunta: ¿con qué datos lo entrenó?, ¿qué hiperparámetros usó?, ¿esta es la versión que está en producción o la que estaba probando? Y ahí se da cuenta de que no tiene ni idea. El pickle está, sí, pero todo lo que lo rodea —los parámetros, las métricas, la fecha, el porqué de esa decisión— vive en su cabeza o, peor, en un notebook que ya editó tres veces. Ese es exactamente el dolor que MLflow viene a resolver, y por eso le dedico esta serie de blog post. Cuando monta un proyecto de machine learning en Fabric "a la antigua", el flujo es manual de principio a fin: crea un notebook, entrena, guarda el modelo en el lago, y cuando lo quiere reusar tiene que volver a leer el archivo y rezar para acordarse del contexto. Si quiere reentrenar y ...