[9주차] ML_basics - Linear Regression

2023. 6. 23. 16:00BOOTCAMP/프로그래머스 인공지능 데브코스

선형 기저 함수 모델

가정 단순한 형태의 선형모델

 

이 모델의 파라미터는 w = 벡터입니다. 위 함수는 파라미터 w에 대해 선형일 뿐만 아니라 입력 데이터 x에 대해서도 선형입니다.

x에 대해 비선형인 함수를 만들고 싶다면

 

x에 대해 비선형인 함수를 기저함수(basis function)이라고 부릅니다.

 

  • 다항식(polynomial) 기저함수
  • 가우시안 기저함수
  • 시그모이드(sigmoid) 기저함수

 

최대우도와 최소제곱법 (Maximum Likelihood and Least Squares)

 

에러함수가 가우시안 노이즈를 가정할 때 최대우도로부터 유도될 수 있다는 것을 살펴봤습니다.

 

  • y(x, w)는 결정론적 함수(deterministic)
  • €는 가우시안 분포를 따르는 노이즈 확률변수

따라서 t의 분포는 다음과 같습니다.

 

제곱합이 손실함수는 쓰이는 경우(squared loss function), 새로운 x가 주어졌을 때, t의 최적의 예측값(optimal prediction)은 t의 조건부 기댓값입니다. t가 위의 분포를 따르는 경우 조건부 기댓값은 다음과 같습니다.

 

파라미터인 w를 찾기 위해 최대우도추정법을 사용

  • 입력값 X = x1, ..., xN
  • 출력값 t = t1, ..., tN

우도함수는

 

로그 우도함수는

 

따라서, 로그 우도함수를 최대화시키는 w값은 주어진 제곱합 에러함수를 최소화시키는 값과 동일하다는 것을 알 수 있습니다.

 

w에 대한 기울기벡터(gradient vector)는

 

따라서 w의 최적값은 

 

위 식을 normal equations라고 부릅니다.

 

Moore-Penrose pseudo-inverse

 

편향 파라미터(bias parameter)

 

기하학적 의미

  • 벡터의 집합 ({x1, x2, ..., xn})에 대한 생성(span)
  • 행렬의 치역(range)
  • 벡터의 사명(projection)

온라인 학습 (Sequential Learing)

 

배치학습 VS 온라인학습

Stochastic gradient decent

에러함수

 

제곱합 에러함수인 경우

 

규조화된 최소제곱법 (Regularized Least Squares)

 

가장 단순한 형태

 

최종적인 에러함수

 

w의 최적값

 

일반화된 규제화

 

Lasso모델(q=1)

  • Constrained minimization문제로 나타낼 수 있습니다.

편향-분산 분해 (Bias-Variance Decomposition)

 

모델이 과적합되는 현상에 대한 이론적인 분석

제곱합 손실함수가 주어졌을 때의 최적 예측값

 

손실함수의 기댓값

 

제한된 데이터셋 D만 주어져 있기 때문에 h(x)를 정확히 알 수는 없습니다. 대신 파라미터화 된 함수 y(x, w)를 사용해 최대한 손실함수의 기댓값을 최소화하고자 합니다.

 

제한된 데이터로 인해 발생하는 모델의 불확실성(uncertainty)을 표현해야 합니다.

  • 베이지안 방법: 모델 파라미터 w의 사후확률분포를 계산합니다.
  • 빈도주의 방법: 모델 파라미터 w의 점추정값을 구하고, 여러 개의 데이터셋을 가정했을 때 발생하는 평균적인 손실을 계산하는 "가상의 실험"을 통해 점추정값의 불확실성을 해석합니다.

특정 데이터셋 D에 대한 손실을

L(D) = {y(x;D) - h(x)}**2 라고 하면

 

손실함수의 기댓값은

£[L(D)] = ∫{y(x;D) - h(x)}**2 p(x) dx + noise

 

여러 개의 데이터셋 D1, ..., DL이 주어졌을 때 이 값들의 평균

 

  • 별개의 테스트 데이터셋에 대한 결과

 

베이지안 선형회귀 (Bayesian Linear Regression)

  • 파라미터 w의 사전확률을 가우시안 분포로 가정해 봅시다.
  • 우도

사전확률을 사용하면 식이 단순화됩니다.

 

사후확률의 로그값

 

  • 예측분포 (Predictive Distribution)
    • 새로운 입력 x가 주어졌을 때 t를 예측
    • 결과들을 적용