HBO시리즈 '세서미 스트리트'의 캐릭터 Bert에서 가져온 BERT(Bidirectional Encoder Representations from Transformers)는 2018년에 Google이 발표한 자연어 처리 (NLP) 모델입니다. BERT는 특히 문장이나 문단의 문맥을 이해하는 데 매우 효과적이며, 그 이후로 많은 NLP 작업에서 최첨단 성능을 보여줬습니다. Bidirectional (양방향): 전통적인 언어 모델들은 주로 한 방향 (왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽)으로 텍스트를 처리합니다. 그러나 BERT는 문장 내의 단어를 고려할 때 그 단어를 둘러싼 양쪽 문맥을 모두 사용하므로 "양방향"이라는 용어가 사용됩니다. Encoder: BERT는 Transformer 아키텍처의 인코더 부..
1. Big Data: 데이터 팀의 역할 데이터 팀의 미션 신뢰할 수 있는 데이터를 바탕으로 부가가치 생성, 데이터는 새로운 오일 등이라고 하지만, 항상 데이터 팀의 부가가치를 창출하는 것. 사측에서 기대하는 만큼, 어떤 이익을 창출해 줄지 고민해야 함. 데이터 팀의 목표 1 -고품질의 데이터를 제공하여 정책 결정에 사용 -결정과학(Decision Science)라고 부르기도 함 데이터 참고 결정(data informed decisions)을 가능하게 함 vs. 데이터 기반 결정(data driven decisions) 데이터 팀의 목표 2 -고품질 데이터를 필요할 때 제공하여 사용자의 서비스 경험 개선 머신 러닝과 같은 데이터 기반 알고리즘을 통해 개선 예) 개인화를 바탕으로한 추천(Recommenda..
End-to-End 머신러닝 프로젝트 부동산 회사에 막 고용된 데이터 과학자라고 가정하고 예제 프로젝트를 처음부터 끝까지 (End-to-End) 진행했습니다. 주요 단계는 다음과 같습니다. 프로젝트 과정 1. 큰 그림을 봅니다 (look at the big picture). 2. 데이터를 구합니다 (get the data). 3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다 (discover and visualize the data to gain insights). 4. 머신러닝 알고리즘을 위해 데이터를 준비합니다 (prepare the data for Machine Learning algorithms). 5. 모델을 선택하고 훈련시킵니다 (select a model and train it). 6..
기계학습: 최적의 프로그램(알고리즘)을 찾는 행위 기계학습의 핵심 3가지: 경험, 과업, 성능 어떤 태스크에 대해 규칙을 찾는데, 입력과 결과를 찾을 때, 세련된 결과를 점진적으로 만들어 가는 것이 기계학습. 새로운 규칙에서 데이터라는 경험에서부터 문제를 점진적으로 풀 수 있는 진보적인 퍼포먼스이라 할 수 있습니다. 인공지능은 연산 장치의 탄생과 동일하게 나타났는데, 사람보다 복잡한 연산을 잘한 컴퓨터. 컴퓨터에 대한 높은 기대감으로 인하여 컴퓨터의 능력을 과신하기도 했습니다. 훈련집합(training set) - 가로축은 특징, 세로축은 목표치 - 관측한 4개의 점이 훈련집합을 구성함 가설인 직선 모델의 수식 - 2개의 매개변수 w와 b y = wx + b 기준 사람의 학습 기계 학습 학습 과정 능동적..
클라우드 컴퓨팅 인터넷 기반의 컴퓨팅, 인터넷을 통해 사용자에게 제공하는 인프라, 플랫폼 또는 소프트웨어 인터넷 통신망 어딘가에서 구름에 싸여 보이지 않는 컴퓨팅 자원(CPU, 메모리, 디스크 등)을 원하는 대로 가져다 쓸 수 있습니다. laaS(Infrastructure as a Service) laaS는 서버, 네트워킹, 스토리지와 데이터 센터 공간 등의 컴퓨팅 자원 종량제 방식 PaaS(Platform as a Service) PaaS는 기본 하드웨어, 소프트웨어, 프로비저닝, 호스팅 등을 구매하여 관리하는 비용과 복잡도 없이, 웹 기반(클라우드) 애플리케이션을 빌드하여 제공하는 전 과정을 지원하는데 필요한 클라우드 기반 환경 제공 SaaS(Software as a service) 클라우드 기반 애..
데이터 출처: https://www.kaggle.com/austinreese/craigslist-carstrucks-data Used Cars Dataset Vehicles listings from Craigslist.org www.kaggle.com Step 1. 데이터셋 준비하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns Colab Notebook에 Kaggle API 세팅하기 import os # os.environ을 이용하여 Kaggle API Username, Key 세팅하기 os.environ['KAGGLE_USERNAME'] = 'jhighllight' os.enviro..
- Total
- Today
- Yesterday
- Kaggle
- SQL
- lv4
- 프로그래머스
- Python
- 부스트코스
- 태블로
- 머신러닝
- 인공지능
- API
- EDA
- Lv3
- nlp
- 프로그래밍
- LV2
- 데이터 시각화
- 데이터분석
- SQLD
- mysql
- ai
- 알고리즘
- 쿼리 테스트
- sql 테스트
- 파이썬
- 딥러닝
- LV1
- 캐글
- 데이터 분석
- ML
- 데이터사이언스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |