본문 바로가기
반응형

전체 글231

데이터 과학 기반의 파이썬 빅데이터 분석 Chapter11 분류 분석 01 [로지스틱 회귀 분석] 특징 데이터로 유방암 진단하기 사이킷런 의 유방암 진단 데이터셋 사용하기 import numpy as np import pandas as pd from sklearn.datasets import load_breast_cancer b_cancer = load_breast_cancer() print(b_cancer.DESCR) .. _breast_cancer_dataset: Breast cancer wisconsin (diagnostic) dataset -------------------------------------------- **Data Set Characteristics:** :Number of Instances: 569 :Number of Attributes: 30 n.. 2023. 1. 10.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter10 회귀 분석 01 [선형 회귀 분석 + 산점도/선형 회귀 그래프] 환경에 따른 주택 가격 예측하기 !pip install sklearn Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/ Collecting sklearn Downloading sklearn-0.0.post1.tar.gz (3.6 kB) Preparing metadata (setup.py) ... done Building wheels for collected packages: sklearn Building wheel for sklearn (setup.py) ... done Created wheel for sklearn: file.. 2023. 1. 9.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter09 지리 정보 분석 01 [주소 데이터 분석 + 지오맵] 지리 정보 분석 후 맵 생성하기 import pandas as pd CB = pd.read_csv('CoffeeBean.csv', encoding = 'CP949', index_col = 0, header = 0, engine = 'python') CB.head() #작업 내용 확인용 출력 addr = [] for address in CB.address: addr.append(str(address).split()) addr #작업 내용 확인용 출력 [['서울시', '강남구', '학동로', '211', '1층'], ['서울시', '강남구', '광평로', '280', '수서동', '724호'], ['서울시', '강남구', '논현로', '566', '강남차병원1층'], [.. 2023. 1. 9.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter08 텍스트 빈도 분석 01 [영문 분석 + 워드클라우드] 영문 문서 제목의 키워드 분석하기 !pip install matplotlib !pip install wordcloud !pip install nltk Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/ Requirement already satisfied: matplotlib in /usr/local/lib/python3.8/dist-packages (3.2.2) Requirement already satisfied: numpy>=1.11 in /usr/local/lib/python3.8/dist-packages (from matplotlib) .. 2023. 1. 8.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter07 통계분석 01 [기술 통계 분석 + 그래프] 와인 품질 등급 예측하기 from google.colab import files uploaded = files.upload() winequality-red.csv winequality-red.csv(text/csv) - 84199 bytes, last modified: 2023. 1. 7. - 100% done Saving winequality-red.csv to winequality-red.csv uploaded = files.upload() winequality-white.csv winequality-white.csv(text/csv) - 264426 bytes, last modified: 2023. 1. 7. - 100% done Saving winequality.. 2023. 1. 8.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter06 파이썬 크롤링 - 라이브러리 이용 정적 웹 페이지 크롤링 준비 1.1 BeautifulSoup 연습하기 1 from bs4 import BeautifulSoup 연습용 html 작성 html = '한빛출판네트워크로그인한빛미디어한빛아카데미' BeutifulSoup 객체 생성 soup = BeautifulSoup(html, 'html.parser') 객체에 저장된 html 내용 확인 print(soup.prettify()) 한빛출판네트워크 로그인 한빛미디어 한빛아카데미 1.2 BeautifulSoup 연습하기 2 태그 파싱하기: 지정된 한 개의 태그만 파싱 한다. soup.h1 한빛출판네트워크 tag_h1 = soup.h1 tag_h1 한빛출판네트워크 tag_div = soup.div tag_div 로그인한빛미디어ul.brand>li") l.. 2023. 1. 6.
Deep Learning Basics Lecture7: Recurrent Neural Networks Sequential Model Naive sequence model input xt-2 -> xt-1 -> xt p(xt|xt-1, xt-2,...) 많은 정보를 버릴 수밖에 없다. Latent autoregressive model Output yt-2 yt-1. yt Hidden state ht-2. ->. ht-1. ->. ht Input xt-2 xt-1 xt 중간의 히든 스테이트가 과거의 정보를 요약하고, 다음을 히든 스테이트에 의하여 과거 이전의 스테이트가 아니라 과거의 정보를 요약한 히든 스테이트라 한다. x = p(xt|ht) h1이 되는 등의 모습이다. 굉장히 많은 파라미터가 셰어 하는 인풋의 위치가 큰 네트워크가 된다. 큰 단점은 Short-term dependencies - 계속 취합되.. 2023. 1. 6.
Mathematics for Artificial Intelligence 10강: RNN 첫걸음 시퀀스 데이터 이해하기 소리, 문자열, 주가 등의 데이터를 시퀀스(sequence) 데이터로 분류한다. 시계열(time-series) 데이터는 시간 순서에 따라 나열된 데이터로 시퀀스 데이터에 속한다. 시퀀스 데이터는 독립동등분포(i.i.d) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다. 과거 정보 또는 앞뒤 맥락 없이 미래를 예측하거나 문장을 완성하는 건 불가능하다. 시퀀스 데이터를 어떻게 다루는가? 이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 조건부확률을 이용할 수 있다. P(X1,..., Xt) = P(Xt|X1,..., Xt-1) P(X1,..., Xt-1) 이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의.. 2023. 1. 6.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter05 파이썬 크롤링-API 이용 01. 네이버 API를 이용한 크롤링 [CODE 0] 먼저, 전체 작업 스토리를 설계한다. def main(): node = 'news' #크롤링할 대상 srcText = input('검색어를 입력하세요: ') cnt = 0 jsonResult = [] jsonResponse = getNaverSearch(node, srcText, 1, 100) #[CODE 2] total = jsonResponse['total'] while ((jsonResponse != None) and (jsonResponse['display'] != 0)): for post in jsonResponse['items']: cnt += 1 getPostData(post, jsonResult, cnt) #[CODE 3] start =.. 2023. 1. 5.
데이터 과학 기반의 파이썬 빅데이터 분석 Chapter04 파이썬 프로그래밍 기초 연습문제 07. pandas의 DataFrame 자료형으로 저장한 뒤 CSV파일에 저장하시오. import pandas as pd df = pd.DataFrame([[500, 450, 520, 610], [690, 700, 820, 900], [1100, 1030, 1200, 1380], [1500, 1650, 1700, 1850], [1990, 2020, 2300, 2420], [1020, 1600, 2200, 2550]], index = ['2015', '2016', '2017', '2018', '2019', '2020'], columns = ['1분기', '2분기', '3분기', '4분기']) df df.to_csv('Users', header = 'False') 08. 07번의 데이터를 이용하여 연도별 라.. 2023. 1. 5.
Mathematics for Artificial Intelligence 9강: CNN 첫걸음 Convolution 연산 이해하기 지금까지 배운 다층신경망(MLP)은 각 뉴런들이 선형모델과 활성함수로 모두 연결된 (fully connected) 구조이다. (만일 i가 바뀌면 사용되는 가중치도 바뀐다.) Convolution 연산은 이와 달리 커널(kernel)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조이다. (모든 i에 대해 적용되는 커널은 V로 같고, 커널의 사이즈만큼 x상에서 이동하면서 적용한다. / 활성화 함수를 제외한 Convolution 연산도 선형변환에 속한다.) 커널 사이즈는 고정된 상태이기에 파라미터를 많이 줄일 수 있다. Convolution 연산의 수학적인 의미는 신호(signal)를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링하.. 2023. 1. 5.
Deep Learning Basics Lecture3: Optimization Introduction Language is the source of misunderstandings" Antoine de Saint-Exupery(1900-1944) Gradient Descent First-order iterative optimaization algorithm for finding a local minimum of a differentiable function. Important Concepts in Oprimization Generalization Under-fitting vs. over-fitting Cross validation Bias-variance tradeoff Bootstrapping Bagging and boosting Genenralization How well th.. 2023. 1. 5.
반응형