[7주차-Day1] ML_basics - Probability

2023. 6. 21. 11:00BOOTCAMP/프로그래머스 인공지능 데브코스

교재소개

  • Pattern Recognition and Machine Learning by Christopher Bishop
  • Deep Learning by lan Goodfellow, Yoshua Bengio and Aaron Courvile
  • Hands-On Machine Learning with Scikit-Learn, Keras, and Tensor Flow(2nd Edition)

 

Machine Learning이란?

Machine Learning (기계학습)

  • 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구
  • 학습데이터: 입력벡터들 X1, …, XN, 목표값들 t1, …, tN
  • 머신러닝 알고리즘의 결과는 목표값을 예측하는 함수 y(x)

학습데이터 (training set)

핵심개념들

  • 학습단계 (training or learning phase): 함수 y(x)를 학습데이터에 기반해 결정하는 단계
  • 시험 셋 (test set): 모델을 평가하기 위해서 사용하는 새로운 데이터
  • 일반화 (generalization): 모델에서 학습에 사용된 데이터가 아닌 이전에 접하지 못한 새로운 데이터에 대해 올바른 예측을 수행하는 역량
  • 지도학습 (supervised learning): target이 주어진 경우
    • 분류 (classification)
    • 회귀 (regression)
  • 비지도학습 (unsupervised learning): target이 없는 경우
    • 군집 (clustering)

다항식 곡선 근사 (Polynomial Curve Fitting)

  • 학습데이터: 입력벡터 X = (x1, …, xN) t = (t1, …, tN) T승
  • 목표: 새로운 입력벡터 x가 주어졌을 때 목푯값 t를 예측하는 것
  • 확률이론(probability theory): 예측값의 불확실성을 정량화시켜 표현할 수 있는 수학적인 프레임워크를 제공한다.
  • 결정이론(decision theory): 확률적 표현을 바탕으로 최적의 예측을 수행할 수 있는 방법론을 제공한다.

오차함수 (Error Function)

확률변수 (Random Variable)

확률변수 X는 표본의 집합 S의 원소 e를 실수값 X(e) = x에 대응시키는 함수이다.

  • 대문자 X, Y, …: 확률변수
  • 소문자 x, y, …: 확률변수가 가질 수 있는 값
  • 확률 P는 집합 S의 부분집합을 실수값에 대응시키는 함수
    • P [X = x]
    • P[X <= x]
    • X = x, X <= x는 집합 S의 부분집합을 정의한다.

빈도주의 대 베이지안(Frequentist versus Bayesian)

확률을 해석하는 두 가지 다른 관점: 빈도주의(frequentist), 베이지안(Bayesian)

  • 빈도주의: 반복가능한 사건들의 빈도수에 기반
  • 베이지안: 불확실성을 정량적으로 표현

반복가능하지 않은 사건일 경우: 북극얼음이 이번 세기말까지 녹아 없어질 확률? 우리가 이미 알고 있는 정보 (얼음이 녹고 있는 속도)에 근거해 확률을 정량적으로 나타낼 수 있고, 새로 수집한느 정보에 따라 확률을 업데이트할 수 있다. 빈도주의는 w가 고정된 파라미터이고, 최대우도와 같은 ‘추정자(estimator)’를 사용해서 그 값을 구한다. 구해진 파라미터의 불확실성은 부트스트랩(bootstrap) 방법을 써서 구할 수 있다.

 

베이지안 관점의 장점

  • 사전확률을 모델에 포함시킬 수 있다.
  • 동전을 던져서 세 번 다 앞면이 나왔을 때
    • 최대우도: 앞 면이 나올 확률은 1이 됨
    • 베이지안: 극단적인 확률을 피할 수 있음

베이지안 곡선 근사 (Bayesian Curve Fitting)

최종단계: 완전한 베이지안 곡선근사

 

이제까지 t의 예측분포를 구하기 위해 여전히 w의 점추정(poit estimation)에 의존해 왔다. 완전한 베이지안 방법은 w의 분포로부터 확률의 기본법칙만을 사용해서 의 예측분포를 유도한다.