logistic-regression

La régression logistique est une méthode statistique utilisée pour prédire la probabilité d'un résultat binaire (par exemple, oui/non, vrai/faux) en fonction d'une ou plusieurs variables indépendantes.

La régression logistique utilise une fonction logistique (fonction sigmoïde) pour modéliser la relation entre les variables indépendantes et la probabilité du résultat. Contrairement à la régression linéaire, qui prédit des valeurs continues, la régression logistique prédit la probabilité d'un résultat catégoriel. La sortie est une valeur comprise entre 0 et 1, représentant la probabilité que le résultat appartienne à une catégorie spécifique.

Le modèle estime les coefficients des variables indépendantes grâce à un processus appelé estimation du maximum de vraisemblance. Ces coefficients déterminent l'impact de chaque variable sur la probabilité prédite. La régression logistique est largement utilisée dans divers domaines, notamment la finance, la santé et le marketing, pour des tâches telles que la notation de crédit, le diagnostic de maladies et la prédiction de la désertion des clients.

        graph LR
  Center["logistic-regression"]:::main
  Pre_logic["logic"]:::pre --> Center
  click Pre_logic "/terms/logic"
  Rel_function["function"]:::related -.-> Center
  click Rel_function "/terms/function"
  Rel_inference["inference"]:::related -.-> Center
  click Rel_inference "/terms/inference"
  Rel_log_management["log-management"]:::related -.-> Center
  click Rel_log_management "/terms/log-management"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Test de connaissances

1 / 3

🧒 Explique-moi comme si j'avais 5 ans

La régression logistique, c'est comme un prédicteur intelligent qui répond par oui ou par non. Il examine des indices (comme l'âge et les habitudes d'une personne) et les utilise pour deviner la probabilité qu'un événement se produise (par exemple, si cette personne aimera un certain film), vous donnant une chance sur une échelle de 0 % à 100 %.

🤓 Expert Deep Dive

Le cœur de la régression logistique réside dans la modélisation des log-odds (logit) du résultat comme une fonction linéaire des prédicteurs : log(P(Y=1|X) / P(Y=0|X)) = β₀ + β₁x₁ + ... + βnxn. C'est ce qu'on appelle la fonction de lien logit. L'estimation par maximum de vraisemblance (EMV) est la méthode standard pour l'estimation des paramètres, impliquant des algorithmes d'optimisation itératifs comme la descente de gradient ou Newton-Raphson pour trouver les coefficients β qui maximisent la fonction de log-vraisemblance. Des techniques de régularisation (L1 et L2) sont souvent employées pour prévenir le surajustement, particulièrement avec des données de haute dimension, en ajoutant des termes de pénalité à la fonction de coût. Bien qu'efficace pour la classification binaire, des extensions comme la régression logistique multinomiale et la régression logistique ordinale gèrent respectivement les résultats catégoriels multi-classes et ordonnés. L'interprétabilité est un avantage clé, car les coefficients (β) peuvent être exponentiés pour obtenir des rapports d'odds, indiquant le changement multiplicatif dans les odds du résultat pour un changement d'une unité dans un prédicteur. Cependant, elle suppose une linéarité dans les log-odds et l'indépendance des erreurs, et ses performances peuvent se dégrader si ces hypothèses sont violées ou si les données présentent une multicolinéarité significative.

🔗 Termes associés

Prérequis:

📚 Sources