본문 바로가기
반응형

BOOTCAMP/boostcamp AI Tech Pre-Course17

Deep Learning Basics Lecture7: Recurrent Neural Networks Sequential Model Naive sequence model input xt-2 -> xt-1 -> xt p(xt|xt-1, xt-2,...) 많은 정보를 버릴 수밖에 없다. Latent autoregressive model Output yt-2 yt-1. yt Hidden state ht-2. ->. ht-1. ->. ht Input xt-2 xt-1 xt 중간의 히든 스테이트가 과거의 정보를 요약하고, 다음을 히든 스테이트에 의하여 과거 이전의 스테이트가 아니라 과거의 정보를 요약한 히든 스테이트라 한다. x = p(xt|ht) h1이 되는 등의 모습이다. 굉장히 많은 파라미터가 셰어 하는 인풋의 위치가 큰 네트워크가 된다. 큰 단점은 Short-term dependencies - 계속 취합되.. 2023. 1. 6.
Mathematics for Artificial Intelligence 10강: RNN 첫걸음 시퀀스 데이터 이해하기 소리, 문자열, 주가 등의 데이터를 시퀀스(sequence) 데이터로 분류한다. 시계열(time-series) 데이터는 시간 순서에 따라 나열된 데이터로 시퀀스 데이터에 속한다. 시퀀스 데이터는 독립동등분포(i.i.d) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다. 과거 정보 또는 앞뒤 맥락 없이 미래를 예측하거나 문장을 완성하는 건 불가능하다. 시퀀스 데이터를 어떻게 다루는가? 이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 조건부확률을 이용할 수 있다. P(X1,..., Xt) = P(Xt|X1,..., Xt-1) P(X1,..., Xt-1) 이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의.. 2023. 1. 6.
Mathematics for Artificial Intelligence 9강: CNN 첫걸음 Convolution 연산 이해하기 지금까지 배운 다층신경망(MLP)은 각 뉴런들이 선형모델과 활성함수로 모두 연결된 (fully connected) 구조이다. (만일 i가 바뀌면 사용되는 가중치도 바뀐다.) Convolution 연산은 이와 달리 커널(kernel)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조이다. (모든 i에 대해 적용되는 커널은 V로 같고, 커널의 사이즈만큼 x상에서 이동하면서 적용한다. / 활성화 함수를 제외한 Convolution 연산도 선형변환에 속한다.) 커널 사이즈는 고정된 상태이기에 파라미터를 많이 줄일 수 있다. Convolution 연산의 수학적인 의미는 신호(signal)를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링하.. 2023. 1. 5.
Deep Learning Basics Lecture3: Optimization Introduction Language is the source of misunderstandings" Antoine de Saint-Exupery(1900-1944) Gradient Descent First-order iterative optimaization algorithm for finding a local minimum of a differentiable function. Important Concepts in Oprimization Generalization Under-fitting vs. over-fitting Cross validation Bias-variance tradeoff Bootstrapping Bagging and boosting Genenralization How well th.. 2023. 1. 5.
Mathematics for Artificial Intelligence 8강: 베이즈 통계학 맛보기 조건부 확률이란? 베이즈 통계학을 이해하기 위해선 조건부 확률의 개념을 이해해야 한다. 조건부 확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다. 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다. A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다. 베이즈 정리: 예제 COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오 검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은? 사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precis.. 2023. 1. 4.
Deep Learning Basis Lecture 4: Convolutional Neural Networks Convolution Continuous convolution Discrete convolution 2D image convolution K(3X3 filter) * I(7X7 image) = Output(5X5) 2D convolution in action Blur, Emboss, Outline RGB Image Convolution 5X5X3 filter / 32X32X3 Image / 28X28X1 feature 32X32X3 Image * Four 5X5X3 filter -> 28X28X4 feature Stack of Convolutions [32X32X3] -> CONV(4 5X5X3 filters), ReLU -> [28X28X4] -> CONV(10 5X5X4 filters), ReLU -.. 2023. 1. 4.
Linear Transformation Transformation A transformation, function, or mapping, T maps an input x to an output y Mathematical notation: T: x -> y Domain: Set of all the possible values of x (정의역) Co-domain: Set of all the possible values of y (공역) Image: a mapped output y, given x Range: Set of all the output values mapped by each x in the domain (치역) Note: the output mapped by a particular x is uniquely determined. Lin.. 2023. 1. 3.
Deep Learning Basics Lecture2: Neural Networks & Multi-Layer Perceptron Neural Networks "Neural networks are computing system as vaguely inspired by the biological neural networks that constitute animal brains." Neural networks are function approximators that stack affine transformations followed by nonlinear transformations. ex) GoogLeNet, ResNet Linear Neural Networks We compute the partial derivatives w.r.t the optimization variables. Then, we iteratively update .. 2023. 1. 3.
Mathematics for Artificial Intelligence 5강: 딥러닝 학습방법 이해하기 신경망을 수식으로 분해하려면 우선 선형모델을 먼저 이해해야 한다. 행렬은 데이터를 모아놓은 행렬 A, 다른 벡터로 보내는 가중치 행렬 W d개의 변수로 p개의 선형모델을 만들어서 p개의 잠재변수를 설명하는 모델을 상상해볼 수 있다. 딥러닝에서 화살표는 가중치 w가 결정짓고, 출력 벡터 o에 softmax 함수를 합성하면 확률벡터가 되므로 특정 클래스 k에 속할 확률로 해석할 수 있다. 소프트맥스 연산 소프트맥스(softmax) 함수는 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산이다. 분류 문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측한다. softmax 함수를 통해 R에 있는 벡터를 확률벡터로 변환할 수 있다. (예: [1, 2, 0] -> [0.24, 0.67, 0.09]) impo.. 2023. 1. 2.
Mathematics for Artificial Intelligence 3강: 경사하강법 미분이 뭔가요? - 미분(differentiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법입니다. 미분 변화율의 극한(limit)으로 정의한다. 미분을 손으로 계산하려면 일일이 h -> 0 극한을 계산해야한다. f(x) = x2 + 2x + 3 f'(x) = 2x + 2 - 최근엔 미분을 손으로 직접 계산하는 대신 컴퓨터가 계산해줄 수 있다. ​ import sympy as sym from sympy.abc import x ​ sym.diff(sym.poly(x**2 + 2*x + 3), x) Poly(2*x + 2, x, domain='ZZ') 요즘은 sympy.diff를 가지고 미분을 컴퓨터로 계산할 수 있다. ​ - 미분은 함수 f의 주어.. 2023. 1. 2.
Deep Learning Basic Lecture 1: Historical Review Introdiction Disclaimer 한 사람이 짧은 시간에 두기에 다양한 연구 주제가 있음. 장님이 코끼리를 만지는 상황을 일반적으로 생각하는데, 딥러닝이라 불리우는 학문은 여러 분야에 얽혀 있다. 일반적으로 3가지가 있는데 ,하나가 구현 실력(텐서플로우, 파이토치)이 중요함. 머릿속에서 떠오른 것을 결과로 뽑는 것. 가장 근간이 되는 것을 보도록 할 것이다. ​ Implementation Skills Math Skills(Linear Algebra, Probability) Knowing a lot of recent Papers ​ - 연구를 하는 입장에서 보면 현재 트렌드와 어떤 논문과 연구가 무엇인지 아는 것이 중요하다. 꼭 알아야하는 논문들 위주. ​ Artificial Inteligence.. 2023. 1. 1.
선형독립과 선형종속 선형독립 - 재료 벡터들의 스팬 안에 해가 존재하며, 밖에 있으면 해가 존재하지 않다. - 스팬 안에 상수 벡터가 들어와 있으면 해가 존재하는데, 그 해가 과연 유니크할 것인지와 유일하게 하나만 존재하는지 여러개가 존재할 수 있을 건지를 봐야한다. - 기준이 되는 부분이 linear independence. 상수 벡터가 평면에 들어와 있으면 두개의 벡터의 적절한 크기를 찾아서 두개의 벡터의 평행사변형, 정확하게 b벡터에 일치하도록 하는 솔루션에 부합하는 길이를 찾는게 선형결합에서의 길이를 늘리고, 줄이는 해를 찾는 과정이다. - 평행 사변형의 길이는 하나로 픽스가 되는데, 해가 여러개 존재하면 평행사변형을 여러개를 만들 수 있다는 의미이며, 여러 가능성이 있을 때, 주어진 세개의 벡터가 선형 의존이 되고.. 2023. 1. 1.
반응형