FORMATION IA
MLflow et Weights & Biases pour le suivi d'expériences ML
Maîtrisez le suivi d'expériences, les registres de modèles et les sweeps d'hyperparamètres avec MLflow et W&B.
Ce qu'elle couvre
Ce bootcamp praticien intensif couvre l'intégralité du cycle de vie des expériences ML à l'aide de deux outils de référence : MLflow et Weights & Biases. Les participants apprennent à instrumenter des runs d'entraînement, comparer des expériences, gérer les versions de modèles et exécuter des sweeps d'hyperparamètres automatisés. Le programme aborde également les workflows de collaboration en équipe, la gestion des artefacts et les arbitrages entre déploiement auto-hébergé et SaaS. Le format est très axé sur les travaux pratiques avec des jeux de données réels tout au long de la formation.
À l'issue, vous saurez
- Instrument any Python-based training script with MLflow or W&B logging in under 15 minutes
- Configure and run a W&B Sweep or MLflow hyperparameter search over a real model to identify optimal configurations
- Register, version, and promote models through staging to production using the MLflow Model Registry
- Design a team collaboration workflow with shared experiment namespaces, tagging conventions, and access control policies
- Evaluate and justify a self-hosted versus SaaS deployment decision based on data sensitivity, cost, and team size
Sujets abordés
- MLflow tracking: logging metrics, params, artifacts, and tags
- Weights & Biases: runs, sweeps, and the W&B dashboard
- Model registry: versioning, staging, and promotion workflows
- Hyperparameter optimisation with W&B Sweeps and MLflow Projects
- Artifact management and dataset versioning
- Team collaboration patterns: shared experiments and access controls
- Self-hosted MLflow vs W&B SaaS: cost, security, scalability trade-offs
- CI/CD integration for automated experiment pipelines
Modalité
Delivered over two to three days, either on-site or remote via video conferencing with a shared cloud environment (e.g., AWS SageMaker Studio or Google Colab Enterprise). Each session follows a 30% concept / 70% lab ratio. Participants receive pre-configured Docker environments and Jupyter notebooks. A capstone exercise on day 2-3 requires integrating both tools into a mini ML pipeline. Remote delivery uses breakout rooms for pair-lab exercises.
Ce qui fait que ça marche
- Establishing shared naming conventions and tagging standards before the first team experiment run
- Integrating experiment tracking into CI/CD so every training job is automatically logged without developer effort
- Nominating a model registry owner who reviews and approves promotions from staging to production
- Starting with a small reproducibility audit of past experiments to immediately demonstrate business value
Erreurs fréquentes
- Logging only final metrics rather than per-step metrics, making it impossible to diagnose training instability
- Skipping the model registry and relying on file paths, leading to broken reproducibility when models move to production
- Running W&B Sweeps without setting a stopping strategy, resulting in runaway compute costs
- Choosing self-hosted MLflow without planning storage backend and proxy auth, causing painful migrations later
Quand NE PAS suivre cette formation
A team that has not yet standardised its training framework (some using TensorFlow, others PyTorch, others AutoML SaaS) will struggle to get value from this training — establish a common modelling stack first.
Fournisseurs à considérer
Sources
Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.