본문 바로가기
반응형

전체 글231

[10주차] 신경망 기초 인공신경망과 생물신경망 ■ 인공신경망 기계학습 역사에서 가장 오래된 기계 학습 모델 1950년대 퍼셉트론 (인공두뇌학 cybernetics) → 1980년대 다층 퍼셉트론 (결합설 connectionism) →2000년대 깊은 인공신경망 (심층학습 deep learning) 현재 다양한 형태의 인공신경망을 가지며, 주목할 만한 결과를 제공함 ■ 사람의 뉴런 neuron 두뇌의 가장 작은 정보처리 단위 구조 세포체(cell body)는 간단한 연산 수상돌기(dendrite)는 신호 수신 축삭(axon)은 처리 결과를 전송 사람은 10**11개의 정도의 뉴런을 가지며, 각 뉴런은 약 1000개 다른 뉴런과 연결되어 10**14개 연결을 가짐 ■ 두 줄기 연구의 동반상승(synergy) 효과 컴퓨터 과학(co.. 2023. 6. 24.
[9주차] ML_basics - Linear Regression 선형 기저 함수 모델 가정 단순한 형태의 선형모델 이 모델의 파라미터는 w = 벡터입니다. 위 함수는 파라미터 w에 대해 선형일 뿐만 아니라 입력 데이터 x에 대해서도 선형입니다. x에 대해 비선형인 함수를 만들고 싶다면 x에 대해 비선형인 함수를 기저함수(basis function)이라고 부릅니다. 다항식(polynomial) 기저함수 가우시안 기저함수 시그모이드(sigmoid) 기저함수 최대우도와 최소제곱법 (Maximum Likelihood and Least Squares) 에러함수가 가우시안 노이즈를 가정할 때 최대우도로부터 유도될 수 있다는 것을 살펴봤습니다. y(x, w)는 결정론적 함수(deterministic) €는 가우시안 분포를 따르는 노이즈 확률변수 따라서 t의 분포는 다음과 같습니다.. 2023. 6. 23.
[8주차 - Day3] 케글 경진대회 - Spaceship Titanic 케글 데이터 소개 Spaceship Titanic Spaceship Titanic | Kaggle www.kaggle.com "Spaceship Titanic" 데이터 셋은 2912년에 일어난 가상의 우주 사고를 기반으로 합니다. 이 데이터 셋은 거의 13,000명의 승객을 운송하던 우주선 'Spaceship Titanic'이 우주 먼지 구름 안에 숨겨진 시공간 이상 현상과 충돌한 사건을 다룹니다. 이 사건으로 인해 승객들의 절반 가량이 다른 차원으로 이동했으며, 구조팀을 도와 승객들을 찾기 위해 우주선의 손상된 컴퓨터 시스템에서 복구된 기록을 사용하여 어떤 승객들이 이상 현상에 의해 이동되었는지 예측해야 합니다. 파일 및 데이터 필드 설명 train.csv - 약 2/3 (~8700명)의 승객에 대한 .. 2023. 6. 23.
[8주차 - Day2] monthly project2 Problem 1. 데이터셋 다운로드 및 분석하기 # 깃허브에서 데이터셋 다운로드하기 ! git clone https://github.com/ndb796/Scene-Classification-Dataset # 폴더 안으로 이동 % cd Scene-Classification-Dataset # 깃허브에서 데이터셋 다운로드하기 !git clone https://github.com/ndb796/Scene-Classification-Dataset # 폴더 안으로 이동 %cd Scene-Classification-Dataset Cloning into 'Scene-Classification-Dataset'... remote: Enumerating objects: 24303, done. remote: Counting .. 2023. 6. 22.
[7주차 - Day5] ML_basics - 실습 이 프로젝트에서는 음식 배달 서비스의 배달 시간을 예측하는 모델을 개발했습니다. 이 모델은 주문의 다양한 특성(예: 주문 아이템 수, 가격, 주문 방식 등)을 기반으로 실제 배달 시간을 예측합니다. 이 모델은 사용자 경험을 향상하고, 서비스 효율성을 높이는 데 도움이 될 것입니다. # 라이브러리 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error import numpy a.. 2023. 6. 22.
[7주차 - Day4] ML_basics - Probability Distributions (Part 2) 가우시안 분포 (Gaussian Distribution) 가우시안 분포가 일어나는 여러가지 상황 정보이론에서 엔트로피를 최대화시키는 확률분포 중심극한정리 단일변수 x D차원 벡터 x 여기서 u는 D차원의 평균 벡터이고, ∑는 D X D 크기를 가지는 공분산 행렬입니다. 중요한 것은 u와 ∑가 평균, 공분산으로 주어진 것이 아니고, 파라미터로 주어진 확률밀도함수의 평균과 공분산이 u, ∑가 된다는 것입니다. 가우시안 분포의 기하학적인 형태 x에 대한 함수적 종속성은 지수부에 등장하는 이차형식(quadratic form)에 있습니다. ∑가 공분산으로 주어진 것이 아니기 때문에 처음부터 이 행렬이 대칭이라고 생각할 필요는 없습니다. 그러나 이차 형식에 나타나는 행렬은 오직 대칭부분만이 그 값에 기여합니다. 따.. 2023. 6. 22.
[7주차 - Day3] ML_basics - Probability Distributions (Part 1) 밀도추정(Density Estimation): 𝑁개의 관찰데이터(observations) 𝐱1,…𝐱𝑁가 주어졌을 때 분포함수 𝑝(𝐱)를 찾는 것입니다. 𝑝(𝐱)를 파라미터화된 분포로 가정한다. 회귀, 분류문제에서는 주로 𝑝(𝑡|𝐱), 𝑝(C|𝐱)를 추정한다. 그다음 분포의 파라미터를 찾는다. 빈도주의 방법(Frequentist's way): 어떤 기준(예를 들어 likelihood)을 최적화시키는 과정을 통해 파라미터 값을 정한다. 파라미터의 하나의 값을 구하게 된다. 베이지안 방법(Bayesian way): 먼저 파라미터의 사전확률(prior distribution)을 가정하고 Bayes' rule을 통해 파라미터의 사후확률(posterior distribution)을 구한다. 파라미터를 찾았다면(한 .. 2023. 6. 21.
[7주차 - Day2] ML_basics - Decision Theory & Linear Regression 결정이론이란? 새로운 값 x가 주어졌을 때 확률모델 p(x, t)에 기반해 최적의 결정(예를 들어 분류)을 내리는 것 추론단계: 결합확률분포 p(x, Ck)를 구하는 것(p(Ck|x)를 직접 구하는 경우도 있음). 이것만 있으면 모든 것을 할 수 있음. 결정단계: 상황에 대한 확률이 주어졌을 때 어떻게 최적의 결정을 내릴 것인지? 추론단계를 거쳤다면 결정단계는 매우 쉬움. 예제: X-Ray의 이미지로 암 판별 x: X-Ray 이미지 C1: 암인 경우 C2: 암이 아닌 경우 p(Ck|x)의 값을 알기 원함 직관적으로 볼 때 p(Ck|x)를 최대화시키는 k를 구하는 것이 좋은 결정 기대손실 최소화 (Minimizing the Expected Loss) 모든 결정이 동일한 리스크를 갖는 것은 아님. 암이 아닌.. 2023. 6. 21.
[7주차-Day1] ML_basics - Probability 교재소개 Pattern Recognition and Machine Learning by Christopher Bishop Deep Learning by lan Goodfellow, Yoshua Bengio and Aaron Courvile Hands-On Machine Learning with Scikit-Learn, Keras, and Tensor Flow(2nd Edition) Machine Learning이란? Machine Learning (기계학습) 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구 학습데이터: 입력벡터들 X1, …, XN, 목표값들 t1, …, tN 머신러닝 알고리즘의 결과는 목표값을 예측하는 함수 y(x) 학습데이터 (training set) 핵심개념들 학습단계 (trai.. 2023. 6. 21.
[6주차 - Day5] k-Nearest Neighbor classifier 실습 1. 데이터셋 다운로드(Colab) # This mounts your Google Drive to the Colab VM. from google.colab import drive drive.mount('/content/drive') # Enter the foldername in your Drive where you have saved the unzipped # assignment folder, e.g. 'cs231n/assignments/assignment1/' FOLDERNAME = 'cs231n/assignments/assignment1/' assert FOLDERNAME is not None, "[!] Enter the foldername" # Now that we've mounted your Dr.. 2023. 6. 20.
보이스 피싱 AI 구별법(NLP) 음성 인식 및 분석은 딥러닝의 한 분야로, 이를 위해 여러 가지 알고리즘이 개발되었습니다. 이 중에서도, 음성의 특성을 분석하여 사람의 목소리와 AI가 생성한 목소리를 구별하는 방법 중 하나는 스펙트로그램을 사용하는 것입니다. 스펙트로그램은 시간에 따른 주파수의 분포를 시각화한 것으로, 음성의 특성을 잘 나타냅니다. 다음은 이를 구현하는 간단한 파이썬 코드입니다. 이 코드는 두 개의 오디오 파일(하나는 사람의 목소리, 다른 하나는 AI가 생성한 목소리)을 입력으로 받아, 각각의 스펙트로그램을 생성하고, 이를 비교하여 두 오디오 파일이 같은 소스에서 왔는지를 판단합니다. import numpy as np import matplotlib.pyplot as plt import scipy.io.wavfile a.. 2023. 6. 8.
COVID-19 data from John Hopkins University 데이터 소개 - 총 10개의 파일 중 2개의 Raw 데이터를 사용합니다. RAW_global_confirmed_cases.csv RAW_global_global_deaths.csv - 각 파일의 칼럼은 아래와 같습니다. Country/Region: 국가 Province/State: 지방/주 Lat: 지역의 위도 Long: 지역의 경도 날짜: 각 날짜의 확진자/사망자 수 - 데이터 출처: https://www.kaggle.com/antgoldbloom/covid19-data-from-john-hopkins-university import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os.. 2023. 5. 21.
반응형