조건부 확률이란?
- 베이즈 통계학을 이해하기 위해선 조건부 확률의 개념을 이해해야 한다.
- 조건부 확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
- 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.
- A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.
베이즈 정리: 예제
- COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오 검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
- 사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precision)를 계산하는 문제이다.
- 오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)가 떨어진다. 정밀도(Precision) = TP / TP+FP = 0.916
- False Positive(1종오류) | True Positive
베이즈 정리를 통한 정보의 갱신
- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
조건부 확률 -> 인과관계
- 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해선 안된다.
- 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.
- 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
- 단, 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.
조건부확률 기반 예측모형: 99% 예측정확도 테스트 -> 95% 예측정확도 시나리오 A -> 72% 예측정확도 시나리오 B vs. 인과 관계 기반 예측 모형: 85% 예측정확도 테스트 -> 82% 예측정확도 시나리오 A -> 81% 예측정확도 시나리오 B
- 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고, 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
- 만일 Z의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나온다.
인과관계 추론: 예제
- 신장 결석 크기: Z
- 치료법: {a, b}
- 완치: RTreatment a: 78% (273/350). 93% (81/87). 73% (192/263) Open surgery
- Overall. Patients with small stones. Patients with large stones
Treatment b: Percutaneius 83% (289/350) 87% (234/270) 69% (55/80) nephrolithotomy
= 234/270 * (87+270) / 700 + 55/80 * (263+80)/700 = 0.7789 - 조건부확률로 계산한 치료효과와 정반대의 결과가 나오게 된다.
- 조건부 확률만으로 계산하면 잘못될 수 있기에 변수들끼리 관계를 파악히야 인과관계 추론까지 해야 한다.
'BOOTCAMP > boostcamp AI Tech Pre-Course' 카테고리의 다른 글
Mathematics for Artificial Intelligence 9강: CNN 첫걸음 (0) | 2023.01.05 |
---|---|
Deep Learning Basics Lecture3: Optimization (0) | 2023.01.05 |
Deep Learning Basis Lecture 4: Convolutional Neural Networks (0) | 2023.01.04 |
Linear Transformation (0) | 2023.01.03 |
Deep Learning Basics Lecture2: Neural Networks & Multi-Layer Perceptron (0) | 2023.01.03 |