Model Distillation

La distillation de modèle est une technique où un modèle plus petit et moins complexe (l'étudiant) est entraîné pour imiter le comportement d'un modèle plus grand et plus complexe (le professeur).

🌐 Termes dans d'autres langues:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

La distillation de modèle vise à transférer la connaissance d'un modèle volumineux, souvent coûteux en calcul, vers un modèle plus petit. Le modèle professeur, pré-entraîné sur un ensemble de données, fournit des étiquettes douces ou des probabilités pour que le modèle étudiant apprenne, plutôt que de simples étiquettes dures. Cela permet au modèle étudiant de capturer les capacités de généralisation du professeur et d'atteindre potentiellement des performances similaires avec moins de paramètres et un coût de calcul moindre. Le processus implique généralement d'entraîner le modèle étudiant sur une combinaison des données d'entraînement originales et des sorties du professeur, en utilisant souvent une fonction de perte qui encourage les prédictions de l'étudiant à s'aligner sur les prédictions du professeur.

Cette technique est particulièrement utile dans les scénarios où le déploiement du modèle professeur complet est impraticable en raison de contraintes de ressources, comme dans les appareils périphériques ou les applications mobiles. Elle permet la création de modèles efficaces qui conservent les performances de leurs homologues plus volumineux, facilitant une inférence plus rapide et une empreinte mémoire réduite.

        graph LR
  Center["Model Distillation"]:::main
  Pre_machine_learning["machine-learning"]:::pre --> Center
  click Pre_machine_learning "/terms/machine-learning"
  Pre_neural_network["neural-network"]:::pre --> Center
  click Pre_neural_network "/terms/neural-network"
  Pre_deep_learning["deep-learning"]:::pre --> Center
  click Pre_deep_learning "/terms/deep-learning"
  Rel_llm["llm"]:::related -.-> Center
  click Rel_llm "/terms/llm"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Test de connaissances

1 / 3

🧒 Explique-moi comme si j'avais 5 ans

It's like a master chef teaching an apprentice. The apprentice learns not just the final recipe (the right answer) but also the subtle techniques and reasoning the master uses, so the apprentice can cook almost as well but much faster.

🤓 Expert Deep Dive

Model distillation, also known as knowledge distillation, is a form of model compression that leverages a teacher-student architecture. The objective function for the student model typically takes the form: L_total = α L_hard + (1 - α) L_soft, where L_hard is a standard cross-entropy loss against ground-truth labels, and L_soft is a loss (e.g., KL divergence or cross-entropy) comparing the student's softened outputs to the teacher's softened outputs. The temperature parameter T in the softmax function (softmax(z_i / T)) is crucial; a higher T produces a softer probability distribution, emphasizing inter-class similarities, while T=1 recovers the standard softmax. Variants include distilling intermediate feature representations (feature distillation) or attention maps, rather than just the final output probabilities. This can be particularly effective when the teacher and student architectures differ significantly. Offline distillation involves training the teacher first, then distilling it. Online distillation trains the teacher and student simultaneously. Self-distillation involves using a model of the same architecture as both teacher and student. Challenges include selecting the appropriate distillation loss, tuning the temperature and weighting parameters (α), and the potential for negative transfer if the teacher model is poorly suited or the student capacity is too low. The effectiveness often depends on the similarity between the teacher's learned function and the true underlying data distribution.