Mathematics for Artificial Intelligence 8강: 베이즈 통계학 맛보기

2023. 1. 4. 23:29BOOTCAMP/boostcamp AI Tech Pre-Course

조건부 확률이란?

  • 베이즈 통계학을 이해하기 위해선 조건부 확률의 개념을 이해해야 한다.
    • 조건부 확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
  • 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.
    • A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.

 

베이즈 정리: 예제

  • COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오 검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
    • 사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precision)를 계산하는 문제이다.
  • 오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)가 떨어진다. 정밀도(Precision) = TP / TP+FP = 0.916
  • False Positive(1종오류) | True Positive

 

베이즈 정리를 통한 정보의 갱신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

조건부 확률 -> 인과관계

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해선 안된다.
    • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
    • 단, 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.

조건부확률 기반 예측모형: 99% 예측정확도 테스트 -> 95% 예측정확도 시나리오 A -> 72% 예측정확도 시나리오 B vs. 인과 관계 기반 예측 모형: 85% 예측정확도 테스트 -> 82% 예측정확도 시나리오 A -> 81% 예측정확도 시나리오 B

  • 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고, 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
    • 만일 Z의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나온다.

 

인과관계 추론: 예제

  • 신장 결석 크기: Z
  • 치료법: {a, b}
  • 완치: RTreatment a: 78% (273/350). 93% (81/87). 73% (192/263) Open surgery
    •  Overall.     Patients with small stones.   Patients with large stones

Treatment b: Percutaneius 83% (289/350) 87% (234/270) 69% (55/80) nephrolithotomy

= 234/270 * (87+270) / 700 + 55/80 * (263+80)/700 = 0.7789 - 조건부확률로 계산한 치료효과와 정반대의 결과가 나오게 된다.

  • 조건부 확률만으로 계산하면 잘못될 수 있기에 변수들끼리 관계를 파악히야 인과관계 추론까지 해야 한다.