본문 바로가기
반응형

전체 글231

Video Game Sales with Ratings 데이터 소개 Video_Games_Sales_as_at_22_Dec_2016.csv - 각 파일의 칼럼은 아래와 같습니다. Name: 게임의 이름 Platform: 게임이 동작하는 콘솔 Year_of_Release: 발매 연도 Genre: 게임의 장르 Publisher: 게임의 유통사 NA_Sales: 북미 판매량 (Millions) EU_Sales: 유럽 연합 판매량 (Millions) JP_Sales: 일본 판매량 (Millions) Other_Sales: 기타 판매량 (아프리카, 일본 제외 아시아, 호주, EU 제외 유럽, 남미) (Millions) Global_Sales: 전국 판매량 Critic_Score: Metacritic 스태프 점수 Critic_Count: Critic_Score에 사용된.. 2023. 5. 18.
[패캠] 우리나라의 행복지수는 몇 위? 아니, 행복지수가 도대체 뭔데? 데이터 소개 - 이번 주제는 World Happiness Report up to 2020을 사용합니다. - 각 파일의 칼럼은 아래와 같습니다. Country: 국가 Region: 국가의 지역 Happiness Rank: 행복지수 순위 Happiness Score: 행복지수 점수 GDP per capita: 1인당 GDP Healthy Life Expectancy: 건강 기대수명 Social support: 사회적 지원 Freedom to make life choices: 삶에 대한 선택의 자유 Generosity: 관용 Corruption Perception: 부정부패 Dystopia + Residual: 그 외 데이터 출처: https://www.kaggle.com/mathurinache/world-h.. 2023. 5. 17.
[6주차 - Day4] ML_basics - Linear Algebra, Matrix Calculus Python에서의 벡터, 행렬 표현방법 [10.5, 5.2, 3.25, 7.0] [10.5, 5.2, 3.25, 7.0] import numpy as np x = np.array([10.5, 5.2, 3.25]) x.shape (3,) i = 2 x[i] 3.25 np.expand_dims(x, axis=1).shape (3, 1) A = np.array([ [10,20,30], [40,50,60] ]) A array([[10, 20, 30], [40, 50, 60]]) A.shape (2, 3) i = 0 j = 2 A[i, j] 30 j = 1 A[:, j] array([20, 50]) i = 1 A[i, :] array([40, 50, 60]) 행렬의 곱셉 (Matrix Multiplication).. 2023. 5. 14.
[6주차 - Day3] ML_basics - E2E End-to-End 머신러닝 프로젝트 부동산 회사에 막 고용된 데이터 과학자라고 가정하고 예제 프로젝트를 처음부터 끝까지 (End-to-End) 진행했습니다. 주요 단계는 다음과 같습니다. 프로젝트 과정 1. 큰 그림을 봅니다 (look at the big picture). 2. 데이터를 구합니다 (get the data). 3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다 (discover and visualize the data to gain insights). 4. 머신러닝 알고리즘을 위해 데이터를 준비합니다 (prepare the data for Machine Learning algorithms). 5. 모델을 선택하고 훈련시킵니다 (select a model and train it). 6.. 2023. 5. 14.
[6주차 - Day2] 기계학습과 수학 리뷰 기계학습에서의 수학 역할 - 수학은 목적함수를 정의하고, 목적함수의 최저점을 찾아주는 최적화 이론을 제공합니다. - 최적화(optimization) 이론에 학습률(learning rate), 멈춤 조건과 같은 제어를 추가하여 알고리즘 구축 - 사람은 알고리즘을 설계하고, 데이터를 수집 벡터(vector) - 샘플을 특징 벡터로 표현(feature vector) 예) Iris 데이터에서 꽃받침의 길이, 꽃받침의 너비, 꽃잎의 길이, 꽃잎의 너비라는 4개의 특징이 각각 5.1, 3.5, 1.4, 0.2인 샘플 - 요소의 종류와 크기 표현 - 데이터 집합의 여러 개 특징 벡터를 첨자로 구분 행렬(matrix) - 여러 개의 벡터를 담음 - 훈련집합을 담은 행렬을 설계행렬(design matrix)이라 부름 예.. 2023. 5. 12.
[6주차 - Day1] 인공지능과 기계학습 소개 기계학습: 최적의 프로그램(알고리즘)을 찾는 행위 기계학습의 핵심 3가지: 경험, 과업, 성능 어떤 태스크에 대해 규칙을 찾는데, 입력과 결과를 찾을 때, 세련된 결과를 점진적으로 만들어 가는 것이 기계학습. 새로운 규칙에서 데이터라는 경험에서부터 문제를 점진적으로 풀 수 있는 진보적인 퍼포먼스이라 할 수 있습니다. 인공지능은 연산 장치의 탄생과 동일하게 나타났는데, 사람보다 복잡한 연산을 잘한 컴퓨터. 컴퓨터에 대한 높은 기대감으로 인하여 컴퓨터의 능력을 과신하기도 했습니다. 훈련집합(training set) - 가로축은 특징, 세로축은 목표치 - 관측한 4개의 점이 훈련집합을 구성함 가설인 직선 모델의 수식 - 2개의 매개변수 w와 b y = wx + b 기준 사람의 학습 기계 학습 학습 과정 능동적.. 2023. 5. 12.
[5주차 - Day3] Django로 동적 웹 페이지 만들기 #models.py from django.db import models class.Coffee(models.Model) name = models.Charfield(default="", max_length=25) price = models.IntegerField(default=0) is_ice = models.BooleanField(default=False) 장고에 커피를 추가하고, 그 안에 name, price, is_ice를 추가합니다. #admin.py from django.contrib import admin from .models import Coffee admin.site.register(Coffee) class (models.Model): name = models.CharType() price.. 2023. 5. 11.
[5주차 - Day2] Web Application with Django django Project and App 하나의 Project는 여러 App으로 구성되어있습니다. django App 만들기 새로운 앱 생성 MVT Pattern 어떤 유저가 리퀘스트를 보내고, 서버입장에서는 URL을 경로 체크하고, 이것을 View로 보내게 됩니다. 장고의 경우 어떤 데이터 베이스를 처리하는데, 모델에서 DB, ORM을 템플릿에서 html과 템블릿 언어를 처리하여 동적인 모델을 진행합니다. django Python 기반 웹 프레임워크 가상환경 설치하기 django Project and App 하나의 Project는 여러 App으로 구성되어있습니다. django App 만들기 새로운 앱 생성 MVT Pattern 어떤 유저가 리퀘스트를 보내고, 서버입장에서는 URL을 경로 체크하고, 이것.. 2023. 4. 20.
[4주차 - Day5] 과제 Mission 1. My New Assistant 한국형 자비스, 빅수비를 만들어보자. Python Flask 프레임워크를 이용하여 구현 from flask import Flask, jsonify, request from typing import List, Dict app = Flask(__name__) weapons: List[Dict] = [] @app.route('/weapon', methods=['POST']) def create_weapon(): data = request.json weapon = { 'id': str(len(weapons) + 1), 'name': data['name'], 'stock': data['stock'] } weapons.append(weapon) return json.. 2023. 4. 19.
분산형 차트 분산형 차트는 행·열 선반에 각각 1개 이상의 측정값을 활용하여 해당 데이터가 어떻게 분포되어 있는지 파악할 수 있는 파트입니다. 여러 마크 유형을 활용할 수 있는데, 색상과 크기를 활용하여 데이터의 측정 가능한 세부 정보 또한 추가로 표현할 수 있습니다. 데이터의 분포 위치를 표현하거나 데이터 간 상관관계를 파악할 때, 유용한 차트로 수익성과 매출이 높은 회원을 동시에 파악할 때 유용하며, 또한 수익률 또는 반품률과 같이 대비되는 데이터를 동시에 파악해 영업 사원의 정확한 실적을 파악하는 경우에도 활용됩니다. 상관관계를 표현하는 경우, 개인의 소득 수준과 비만율의 관계를 표현할 수 있으며, 부모의 신체 키와 자녀의 신체 키 사이의 관계를 표현할 수 있습니다. 분산형 차트는 두 데이터의 상관관계를 시각적.. 2023. 4. 14.
영역 차트 영역 차트는 시계열에 따른 누적 데이터가 어떻게 구성되고 있는지 보여 줄 때 효과적으로 활용할 수 있는 차트입니다. 시간의 추이에 따라 어느 제품군에서 가장 큰 매출 비중을 차지하는지 확인할 수 있고, 고객을 분석할 때 성별, 연령별, 지역별로 어느 항목에서 비중이 증감했는지 확인할 수 있습니다. 사이드 바에서 Ctrl(window 체제) 혹은 command(mac 체제)을 이용하여 [대분류], [주문 날짜], [매출] 필드를 다중 선택한 후 오른쪽 위의 [표현 방식]에서 [영역 차트]를 선택합니다. 그리고 사이드 바에 있는 [대분류] 필드를 [마크] 카드 위의 [레이블]로 드래그합니다. 열 선반의 [년(주문 날짜)] 필드 앞에 있는 '+'를 클릭하면 주문 날짜의 기준이 '분기'로 변경됩니다. 좀 더 깔.. 2023. 4. 9.
[4주차 - Day4] EDA Project 과제 데이터 셋 선정하기 Brazilian E-Commerce Public Dataset by Olist https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce Brazilian E-Commerce Public Dataset by Olist 100,000 Orders with product, customer and reviews info www.kaggle.com 라이브러리 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline 데이터 불러오기 customers_df = pd.read_csv('/Users/Deskt.. 2023. 4. 8.
반응형