logistic-regression

로지스틱 회귀는 하나 이상의 독립 변수를 기반으로 이진 결과(예: 예/아니오, 참/거짓)의 확률을 예측하는 데 사용되는 통계적 방법입니다.

로지스틱 회귀는 독립 변수와 결과 확률 간의 관계를 모델링하기 위해 로지스틱 함수(시그모이드 함수)를 사용합니다. 연속 값을 예측하는 선형 회귀와 달리 로지스틱 회귀는 범주형 결과의 확률을 예측합니다. 출력은 0과 1 사이의 값으로, 결과가 특정 범주에 속할 확률을 나타냅니다.

모델은 최대 우도 추정이라는 프로세스를 통해 독립 변수의 계수를 추정합니다. 이러한 계수는 각 변수가 예측된 확률에 미치는 영향을 결정합니다. 로지스틱 회귀는 신용 점수, 질병 진단, 고객 이탈 예측과 같은 작업에 대해 금융, 의료, 마케팅을 포함한 다양한 분야에서 널리 사용됩니다.

        graph LR
  Center["logistic-regression"]:::main
  Pre_logic["logic"]:::pre --> Center
  click Pre_logic "/terms/logic"
  Rel_function["function"]:::related -.-> Center
  click Rel_function "/terms/function"
  Rel_inference["inference"]:::related -.-> Center
  click Rel_inference "/terms/inference"
  Rel_log_management["log-management"]:::related -.-> Center
  click Rel_log_management "/terms/log-management"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 지식 테스트

1 / 3

🧒 5살도 이해할 수 있게 설명

로지스틱 회귀는 똑똑한 예/아니오 예측기와 같아요. 마치 사람의 나이나 습관 같은 단서들을 보고, 그 단서들을 이용해서 어떤 일이 일어날 확률(예를 들어, 특정 영화를 좋아할지 아닐지)을 추측하는 거죠. 그래서 0%에서 100% 사이의 확률을 알려줘요.

🤓 Expert Deep Dive

로지스틱 회귀의 핵심은 결과의 로그-오즈(logit)를 예측 변수의 선형 함수로 모델링하는 것입니다: log(P(Y=1|X) / P(Y=0|X)) = β₀ + β₁x₁ + ... + βnxn. 이는 로짓 링크 함수(logit link function)로 알려져 있습니다. 모수 추정을 위한 표준 방법은 최대 우도 추정(Maximum Likelihood Estimation, MLE)이며, 이는 기울기 하강법(gradient descent) 또는 뉴턴-랩슨(Newton-Raphson)과 같은 반복 최적화 알고리즘을 사용하여 로그 우도 함수를 최대화하는 β 계수를 찾는 과정을 포함합니다. 과적합을 방지하기 위해, 특히 고차원 데이터의 경우, 비용 함수에 페널티 항을 추가하는 L1 및 L2와 같은 정규화 기법이 자주 사용됩니다. 이진 분류에 효과적이지만, 다항 로지스틱 회귀(multinomial logistic regression)와 순서형 로지스틱 회귀(ordinal logistic regression)와 같은 확장 모델은 각각 다중 클래스 및 순서가 있는 범주형 결과를 처리합니다. 계수(β)를 지수화하여 오즈비(odds ratio)를 얻을 수 있어 예측 변수가 한 단위 변할 때 결과의 오즈가 얼마나 곱셈적으로 변하는지를 나타내므로 해석 가능성이 주요 장점입니다. 그러나 이는 로그-오즈에서의 선형성과 오차의 독립성을 가정하며, 이러한 가정이 위배되거나 데이터에 상당한 다중공선성(multicollinearity)이 존재할 경우 성능이 저하될 수 있습니다.

🔗 관련 용어

선행 지식:

📚 출처