[6주차 - Day1] 인공지능과 기계학습 소개

2023. 5. 12. 11:06BOOTCAMP/프로그래머스 인공지능 데브코스

기계학습: 최적의 프로그램(알고리즘)을 찾는 행위

기계학습의 핵심 3가지: 경험, 과업, 성능

 

어떤 태스크에 대해 규칙을 찾는데, 입력과 결과를 찾을 때, 세련된 결과를 점진적으로 만들어 가는 것이 기계학습.

새로운 규칙에서 데이터라는 경험에서부터 문제를 점진적으로 풀 수 있는 진보적인 퍼포먼스이라 할 수 있습니다.

 

인공지능은 연산 장치의 탄생과 동일하게 나타났는데, 사람보다 복잡한 연산을 잘한 컴퓨터.

컴퓨터에 대한 높은 기대감으로 인하여 컴퓨터의 능력을 과신하기도 했습니다.

 

훈련집합(training set)

- 가로축은 특징, 세로축은 목표치

- 관측한 4개의 점이 훈련집합을 구성함

 

가설인 직선 모델의 수식

- 2개의 매개변수 w와 b

y = wx + b

기준 사람의 학습 기계 학습
학습 과정 능동적 수동적
데이터 형식 자연에 존재하는 그대로 일정한 형식에 맞추어 사람이 준비함
동시에 학습 가능한 과업 수 자연스럽게 여러 과업을 학습 하나의 과업만 가능
학습 원리에 대한 지식 매우 제한적으로 알려져 있음 모든 과정이 밝혀져 있음
수학 의존도 매우 낮음 매우 높음
성능 평가 경우에 따라 객관적이거나 주관적 객관적(수치로 평가, 예를 들어 정확률 99.8%)
역사 수백만 년 60년 가량

차원의 저주(curse of dimensionality)

- 차원이 높아짐에 따라 발생하는 현실적인 문제들

- 1차, 2차, 3차원에서의 차원의 저주 예시

- 예) d=784인 MNIST 샘플의 화소가 0과 1 값을 가진다면 2의 784 승개의 칸이 거대한 공간에 고작 6만 개의 샘플을 흩뿌린 매우 희소한 분포

- 차원이 높아질 수록 유의미한 표현을 찾기 위해 지수적으로 많은 데이터가 필요하다.

데이터의 중요성

- 주어진 과업에 적합한 다양한 데이터를 충분한 양만큼 수집 → 과업 성능 향상

예) 정면 얼굴만 가진 데이터로 인식 학습하게 되면 측면 얼굴은 매우 낮은 인식 성능을 가짐

- 데이터의 양과 학습 모델의 성능 경향성 비교

 

공개 데이터

- 기계 학습의 대표적인 3가지 데이터: Iris, MNIST, ImageNet

- UCI 저장소

 

데이터가 적은 양이면 차원의 저주와 관련이 있는데, MNIST가 28*28 단순히 흑백으로 구성된다면 서로 다른 총 샘플 수는 2의 784승 가지이지만, MNIST는 고작 6만 개 샘플입니다.