Quel est le niveau de maturité de votre organisation Data & IA ?Faites le diagnostic
Toutes les formations

FORMATION IA

Fondamentaux des Embeddings et de la Recherche Sémantique

Construisez un système de recherche sémantique opérationnel grâce aux embeddings, aux index de similarité et au reranking.

Format
bootcamp
Durée
14–24h
Niveau
practitioner
Taille de groupe
6–16
Prix / participant
€1K–€3K
Prix groupe
€12K–€28K
Public
Software engineers, ML engineers, and data scientists building search or retrieval features
Prérequis
Proficiency in Python; familiarity with basic ML concepts and REST APIs; no prior vector DB experience required

Ce qu'elle couvre

Cette formation pratique couvre l'ensemble du pipeline de recherche sémantique : sélection et fine-tuning de modèles d'embedding, stratégies de découpage, indexation vectorielle et reranking. Les participants construisent un prototype fonctionnel de recherche sémantique au fil des sessions. Le format alterne courtes séquences conceptuelles et labs de code guidés, pour des ingénieurs et praticiens de la donnée souhaitant dépasser la recherche par mots-clés. Les apprenants repartent avec des patterns de code réutilisables et une vision claire de l'intégration en production.

À l'issue, vous saurez

  • Select and justify the right embedding model for a given domain and latency budget
  • Design and implement a chunking pipeline that preserves semantic coherence across document types
  • Build and query a vector index (FAISS or Qdrant) from scratch in Python
  • Add a cross-encoder reranker to a bi-encoder retrieval pipeline and measure the quality uplift
  • Evaluate retrieval quality using MRR and Recall@K on a labelled test set

Sujets abordés

  • Embedding model taxonomy: dense vs sparse, open-source vs API-based
  • Text chunking strategies: fixed-size, sentence, semantic, and recursive splitting
  • Vector similarity metrics: cosine, dot product, Euclidean — trade-offs
  • Vector databases and ANN indexes: FAISS, Qdrant, Weaviate, pgvector
  • Approximate nearest-neighbour search algorithms (HNSW, IVF)
  • Reranking with cross-encoders and bi-encoder pipelines
  • Evaluation metrics for retrieval quality: MRR, NDCG, Recall@K
  • Production considerations: latency, scaling, hybrid search (BM25 + dense)

Modalité

Typically delivered over 2–3 days in-person or live-virtual (Zoom/Teams). Each half-day block pairs a 30-minute concept session with a 90-minute guided coding lab using Jupyter notebooks. Participants receive a GitHub repo with starter code, pre-indexed datasets, and solution branches. Remote delivery works well; in-person is preferred for the debugging-heavy indexing labs. A cloud sandbox (Google Colab Pro or provisioned GPU instance) is provided so participants can run experiments without local setup friction.

Ce qui fait que ça marche

  • Start with a real internal document corpus during labs — participants retain far more when data is familiar
  • Benchmark hybrid search (BM25 + dense) against pure dense from day one to build intuition
  • Pair engineers with a data owner who can label a small golden test set for immediate evaluation
  • Follow up with a short architecture review session 2–4 weeks post-training to unblock production decisions

Erreurs fréquentes

  • Using a single generic embedding model across all domains without evaluating domain-specific alternatives
  • Ignoring chunk size and overlap tuning, leading to poor retrieval precision on long documents
  • Skipping reranking entirely and assuming ANN retrieval quality is sufficient for production
  • Neglecting evaluation: shipping semantic search without a labelled test set or baseline comparison

Quand NE PAS suivre cette formation

A team that has not yet shipped any ML model to production and is still debating whether to use AI at all — they need an AI literacy or use-case scoping workshop first, not a hands-on embeddings bootcamp.

Fournisseurs à considérer

Sources

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.