2023. 5. 12. 11:06ㆍBOOTCAMP/프로그래머스 인공지능 데브코스
기계학습: 최적의 프로그램(알고리즘)을 찾는 행위
기계학습의 핵심 3가지: 경험, 과업, 성능
어떤 태스크에 대해 규칙을 찾는데, 입력과 결과를 찾을 때, 세련된 결과를 점진적으로 만들어 가는 것이 기계학습.
새로운 규칙에서 데이터라는 경험에서부터 문제를 점진적으로 풀 수 있는 진보적인 퍼포먼스이라 할 수 있습니다.
인공지능은 연산 장치의 탄생과 동일하게 나타났는데, 사람보다 복잡한 연산을 잘한 컴퓨터.
컴퓨터에 대한 높은 기대감으로 인하여 컴퓨터의 능력을 과신하기도 했습니다.
훈련집합(training set)
- 가로축은 특징, 세로축은 목표치
- 관측한 4개의 점이 훈련집합을 구성함
가설인 직선 모델의 수식
- 2개의 매개변수 w와 b
y = wx + b
기준 | 사람의 학습 | 기계 학습 |
학습 과정 | 능동적 | 수동적 |
데이터 형식 | 자연에 존재하는 그대로 | 일정한 형식에 맞추어 사람이 준비함 |
동시에 학습 가능한 과업 수 | 자연스럽게 여러 과업을 학습 | 하나의 과업만 가능 |
학습 원리에 대한 지식 | 매우 제한적으로 알려져 있음 | 모든 과정이 밝혀져 있음 |
수학 의존도 | 매우 낮음 | 매우 높음 |
성능 평가 | 경우에 따라 객관적이거나 주관적 | 객관적(수치로 평가, 예를 들어 정확률 99.8%) |
역사 | 수백만 년 | 60년 가량 |
차원의 저주(curse of dimensionality)
- 차원이 높아짐에 따라 발생하는 현실적인 문제들
- 1차, 2차, 3차원에서의 차원의 저주 예시
- 예) d=784인 MNIST 샘플의 화소가 0과 1 값을 가진다면 2의 784 승개의 칸이 거대한 공간에 고작 6만 개의 샘플을 흩뿌린 매우 희소한 분포
- 차원이 높아질 수록 유의미한 표현을 찾기 위해 지수적으로 많은 데이터가 필요하다.
데이터의 중요성
- 주어진 과업에 적합한 다양한 데이터를 충분한 양만큼 수집 → 과업 성능 향상
예) 정면 얼굴만 가진 데이터로 인식 학습하게 되면 측면 얼굴은 매우 낮은 인식 성능을 가짐
- 데이터의 양과 학습 모델의 성능 경향성 비교
공개 데이터
- 기계 학습의 대표적인 3가지 데이터: Iris, MNIST, ImageNet
- UCI 저장소
데이터가 적은 양이면 차원의 저주와 관련이 있는데, MNIST가 28*28 단순히 흑백으로 구성된다면 서로 다른 총 샘플 수는 2의 784승 가지이지만, MNIST는 고작 6만 개 샘플입니다.
'BOOTCAMP > 프로그래머스 인공지능 데브코스' 카테고리의 다른 글
[6주차 - Day3] ML_basics - E2E (0) | 2023.05.14 |
---|---|
[6주차 - Day2] 기계학습과 수학 리뷰 (0) | 2023.05.12 |
[5주차 - Day3] Django로 동적 웹 페이지 만들기 (0) | 2023.05.11 |
[5주차 - Day2] Web Application with Django (0) | 2023.04.20 |
[4주차 - Day5] 과제 (0) | 2023.04.19 |