logistic-regression
Die logistische Regression ist eine statistische Methode zur Vorhersage der Wahrscheinlichkeit eines binären Ergebnisses (z. B. Ja/Nein, Wahr/Falsch) basierend auf einer oder mehreren unabhängigen Variablen.
Die logistische Regression verwendet eine logistische Funktion (Sigmoidfunktion), um die Beziehung zwischen den unabhängigen Variablen und der Wahrscheinlichkeit des Ergebnisses zu modellieren. Im Gegensatz zur linearen Regression, die kontinuierliche Werte vorhersagt, sagt die logistische Regression die Wahrscheinlichkeit eines kategorialen Ergebnisses voraus. Die Ausgabe ist ein Wert zwischen 0 und 1, der die Wahrscheinlichkeit darstellt, dass das Ergebnis zu einer bestimmten Kategorie gehört.
Das Modell schätzt die Koeffizienten der unabhängigen Variablen durch einen Prozess, der als Maximum-Likelihood-Schätzung bezeichnet wird. Diese Koeffizienten bestimmen den Einfluss jeder Variable auf die vorhergesagte Wahrscheinlichkeit. Die logistische Regression wird in verschiedenen Bereichen eingesetzt, darunter Finanzen, Gesundheitswesen und Marketing, für Aufgaben wie Bonitätsbewertung, Krankheitsdiagnose und Kundenabwanderungsprognose.
graph LR
Center["logistic-regression"]:::main
Pre_logic["logic"]:::pre --> Center
click Pre_logic "/terms/logic"
Rel_function["function"]:::related -.-> Center
click Rel_function "/terms/function"
Rel_inference["inference"]:::related -.-> Center
click Rel_inference "/terms/inference"
Rel_log_management["log-management"]:::related -.-> Center
click Rel_log_management "/terms/log-management"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Wissenstest
🧒 Erkläre es wie einem 5-Jährigen
Logistische Regression ist wie ein schlauer Ja/Nein-Vorhersager. Sie schaut sich Hinweise an (wie das Alter und die Gewohnheiten einer Person) und nutzt diese, um die Wahrscheinlichkeit für ein Ereignis zu schätzen (z. B. ob sie einen bestimmten Film mögen wird), und gibt dir eine Wahrscheinlichkeit zwischen 0 % und 100 %.
🤓 Expert Deep Dive
Der Kern der logistischen Regression liegt in der Modellierung der Log-Odds (Logit) des Ergebnisses als lineare Funktion der Prädiktoren: log(P(Y=1|X) / P(Y=0|X)) = β₀ + β₁x₁ + ... + βnxn. Dies ist als Logit-Linkfunktion bekannt. Die Maximum-Likelihood-Schätzung (MLE) ist die Standardmethode zur Parameterschätzung und beinhaltet iterative Optimierungsalgorithmen wie Gradientenabstieg oder Newton-Raphson, um die β-Koeffizienten zu finden, die die Log-Likelihood-Funktion maximieren. Regularisierungstechniken (L1 und L2) werden häufig eingesetzt, um Überanpassung zu verhindern, insbesondere bei hochdimensionalen Daten, indem Strafterme zur Kostenfunktion hinzugefügt werden. Während sie für die binäre Klassifizierung effektiv ist, behandeln Erweiterungen wie die multinomiale logistische Regression und die ordinale logistische Regression multiklassige bzw. geordnete kategoriale Ergebnisse. Interpretierbarkeit ist ein wesentlicher Vorteil, da die Koeffizienten (β) exponentiert werden können, um Odds Ratios zu erhalten, die die multiplikative Änderung der Odds des Ergebnisses für eine einheitliche Änderung eines Prädiktors anzeigen. Sie geht jedoch von Linearität in den Log-Odds und Unabhängigkeit der Fehler aus, und ihre Leistung kann beeinträchtigt werden, wenn diese Annahmen verletzt werden oder wenn die Daten eine signifikante Multikollinearität aufweisen.