본문 바로가기
반응형

BOOTCAMP70

[18주차] 추천시스템 구현 아마존 뷰티 제품 평점 정보: 2M 개 이상의 고객 리뷰와 평점 정보를 포함한 데이터셋을 가지고 인기 제품 추천과 을 만들어 보자. 앞서 영화 추천과 비슷하게 진행가능하다. 데이터셋에는 총 4가지 정보가 포함되어 있다: 앞서 2일 차와 4일 차 강의 내용을 기반으로 인기도 기반의 추천과 SVD 기반의 추천을 만들어 보자 import pandas as pd import numpy as np amazon_ratings = pd.read_csv("https://grepp-reco-test.s3.ap-northeast-2.amazonaws.com/ratings_Beauty.csv") 4가지 정보 중에 하나라도 비어있는 레코드들을 모두 날리고 처음 5개의 레코드를 살펴본다. amazon_ratings = amaz.. 2023. 7. 21.
[17주차] GAN 실전 프로젝트 - CNN 기반 이미지 분류 모델의 강건성 평가 다양한 딥러닝 분류 모델이 자율 주행 자동차, 얼굴 인식 등 보안(security)이 중요한 분야에서 활용되고 있습니다. 본 프로젝트에서는 공격자 입장에서 딥러닝 모델을 평가하는 적대적 공격 기법에 대하여 공부하게 됩니다. GPU 가속기를 이용하기 위해 [런타임] - [런타임 유형 변경] - [GPU]를 선택합니다. 본 프로젝트를 잘 수행하기 위해 다음의 YouTube 학습 자료를 참고하세요. 본 프로젝트에서는 다음의 두 가지 대표적인 공격 기법을 실습합니다. 본 프로젝트는 총 5개의 문제로 구성됩니다. Problem 5에서 최대한 높은 공격력(낮은 모델 정확도)을 내는 것이 여러분의 최종 목표입니다. 최종적으로 팀 단위로 제출할 파일은 다음.. 2023. 7. 21.
[16주차] NLP II와 Visual Recognition Darknet을 이용하여 커스텀 YOLOv3을 빌드하기 This tutorial is a copy of the one made by 'The AI Guy'. The link to the original tutorial and the author is : The AI Guy 폴더등과 관련된 몇 가지 오류를 수정하고 한글화함 1. Darknet를 clone하기 다음 셀들은 AlexeyAB repository에서 darknet을 clone하고 darknet에서 OPENCV and GPU의 사용을 enable하기 위해 make파일을 수정하고 darknet을 빌드함 In [1]: # darknet repository에서 clone하기 !git clone https://github.com/AlexeyAB/darkn.. 2023. 7. 21.
[15주차] NLP NLP: 텍스트 전처리 자연어 처리 텍스트 전처리 자연어 처리 소개 자연어의 의미를 컴퓨터로 분석해서 특정 작업을 위해 사용할 수 있도록 하는 것 응용분야 기계번역 감성분석 문서분류 질의응답시스템 챗봇 언어생성 음성인식 추천시스템 다른 분야처럼 보이는 것도 다 이어져 있는 것을 알 수 있음 단어(Word) 다음 문장은 몇 개의 단어를 가지고 있나? He stepped out into the hall, was delighted to encounter a water brother. 문장부호를 단어에 포함시켜야 할까? 구어체 문장의 경우 I do uh main - mainly business data processing Fragments(깨어진 단어), filled pauses(uh, um) “Seuss”s .. 2023. 6. 28.
[14주차] Spark 1. Big Data: 데이터 팀의 역할 데이터 팀의 미션 신뢰할 수 있는 데이터를 바탕으로 부가가치 생성, 데이터는 새로운 오일 등이라고 하지만, 항상 데이터 팀의 부가가치를 창출하는 것. 사측에서 기대하는 만큼, 어떤 이익을 창출해 줄지 고민해야 함. 데이터 팀의 목표 1 -고품질의 데이터를 제공하여 정책 결정에 사용 -결정과학(Decision Science)라고 부르기도 함 데이터 참고 결정(data informed decisions)을 가능하게 함 vs. 데이터 기반 결정(data driven decisions) 데이터 팀의 목표 2 -고품질 데이터를 필요할 때 제공하여 사용자의 서비스 경험 개선 머신 러닝과 같은 데이터 기반 알고리즘을 통해 개선 예) 개인화를 바탕으로한 추천(Recommenda.. 2023. 6. 28.
[13주차] monthly project3 실전 프로젝트 - CNN을 활용한 풍경(Scene) 이미지 분류 한 장의 풍경 이미지가 주어졌을 때, 어떠한 카테고리(category)에 속하는지 맞히는 분류 모델을 만드세요. 다음의 세 가지 대표적인 CNN 모델을 실습합니다. 성능을 올릴 수 있는 두 가지 심화 기법을 실습합니다. 본 프로젝트는 총 7개의 문제로 구성됩니다. (참고) 본 실습 코드에서는 빠른 결과 도출을 위해 30~50 epoch 정도만 학습합니다. Problem 1. 데이터셋 다운로드 및 분석하기 # 깃허브에서 데이터셋 다운로드하기 !git clone https://github.com/ndb796/Scene-Classification-Dataset-Split # 폴더 안으로 이동 %cd Scene-Classification-Datas.. 2023. 6. 28.
[12주차] SQL과 데이터분석 주피터 SQL 엔진 설정 %load_ext sql # ID와 PW를 자신의 환경에 맞게 수정 %sql postgresql://guest:Guest1!*@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/prod 'Connected: guest@prod' 다양한 SELECT 실행해 보기 %%sql SELECT * FROM raw_data.session_timestamp LIMIT 10 %%sql SELECT DATE(ts) date, sessionID FROM raw_data.session_timestamp LIMIT 10; %%sql SELECT DATE(ts) date, sessionID FROM raw_data.session_timest.. 2023. 6. 27.
[11주차] CNN & RNN ◼ 컴퓨터 비전(CV)의 어려운 점 ▪ 관점의 변화: 동일한 객체라도 영상을 찍는 카메라의 이동에 따라 모든 픽셀값이 변화 ▪ 경계색 (보호색)으로 배경과 구분이 어려운 경우 ▪ 조명에 따른 변화 ▪ 기형적인 형태의 영상 존재 ▪ 일부가 가려진 영상 존재 ▪ 같은 종류 간의 변화가 큼 ◼ DMLP와 CNN의 비교 ▪ DMLP • 완전 연결 fully connection 구조로 높은 복잡도 • 학습이 매우 느리고 과잉적합 우려 ▪ CNN • 컨볼루션 연산을 이용한 부분연결 (희소 연결) 구조로 복잡도 크게 낮춤 • 컨볼루션 연산은 좋은 특징 추출 ◼ CNN 특징 ▪ 격자grid 구조 (영상, 음성 등)를 갖는 데이터에 적합 ▪ 수용장receptive field은 인간시각과 유사 ▪ 가변 크기의 입력 처리 .. 2023. 6. 27.
[10주차] 신경망 기초 인공신경망과 생물신경망 ■ 인공신경망 기계학습 역사에서 가장 오래된 기계 학습 모델 1950년대 퍼셉트론 (인공두뇌학 cybernetics) → 1980년대 다층 퍼셉트론 (결합설 connectionism) →2000년대 깊은 인공신경망 (심층학습 deep learning) 현재 다양한 형태의 인공신경망을 가지며, 주목할 만한 결과를 제공함 ■ 사람의 뉴런 neuron 두뇌의 가장 작은 정보처리 단위 구조 세포체(cell body)는 간단한 연산 수상돌기(dendrite)는 신호 수신 축삭(axon)은 처리 결과를 전송 사람은 10**11개의 정도의 뉴런을 가지며, 각 뉴런은 약 1000개 다른 뉴런과 연결되어 10**14개 연결을 가짐 ■ 두 줄기 연구의 동반상승(synergy) 효과 컴퓨터 과학(co.. 2023. 6. 24.
[9주차] ML_basics - Linear Regression 선형 기저 함수 모델 가정 단순한 형태의 선형모델 이 모델의 파라미터는 w = 벡터입니다. 위 함수는 파라미터 w에 대해 선형일 뿐만 아니라 입력 데이터 x에 대해서도 선형입니다. x에 대해 비선형인 함수를 만들고 싶다면 x에 대해 비선형인 함수를 기저함수(basis function)이라고 부릅니다. 다항식(polynomial) 기저함수 가우시안 기저함수 시그모이드(sigmoid) 기저함수 최대우도와 최소제곱법 (Maximum Likelihood and Least Squares) 에러함수가 가우시안 노이즈를 가정할 때 최대우도로부터 유도될 수 있다는 것을 살펴봤습니다. y(x, w)는 결정론적 함수(deterministic) €는 가우시안 분포를 따르는 노이즈 확률변수 따라서 t의 분포는 다음과 같습니다.. 2023. 6. 23.
[8주차 - Day3] 케글 경진대회 - Spaceship Titanic 케글 데이터 소개 Spaceship Titanic Spaceship Titanic | Kaggle www.kaggle.com "Spaceship Titanic" 데이터 셋은 2912년에 일어난 가상의 우주 사고를 기반으로 합니다. 이 데이터 셋은 거의 13,000명의 승객을 운송하던 우주선 'Spaceship Titanic'이 우주 먼지 구름 안에 숨겨진 시공간 이상 현상과 충돌한 사건을 다룹니다. 이 사건으로 인해 승객들의 절반 가량이 다른 차원으로 이동했으며, 구조팀을 도와 승객들을 찾기 위해 우주선의 손상된 컴퓨터 시스템에서 복구된 기록을 사용하여 어떤 승객들이 이상 현상에 의해 이동되었는지 예측해야 합니다. 파일 및 데이터 필드 설명 train.csv - 약 2/3 (~8700명)의 승객에 대한 .. 2023. 6. 23.
[8주차 - Day2] monthly project2 Problem 1. 데이터셋 다운로드 및 분석하기 # 깃허브에서 데이터셋 다운로드하기 ! git clone https://github.com/ndb796/Scene-Classification-Dataset # 폴더 안으로 이동 % cd Scene-Classification-Dataset # 깃허브에서 데이터셋 다운로드하기 !git clone https://github.com/ndb796/Scene-Classification-Dataset # 폴더 안으로 이동 %cd Scene-Classification-Dataset Cloning into 'Scene-Classification-Dataset'... remote: Enumerating objects: 24303, done. remote: Counting .. 2023. 6. 22.
반응형