데이터 과학 기반의 파이썬 빅데이터 분석 Chapter08 텍스트 빈도 분석

2023. 1. 8. 23:49Python/데이터 과학 기반의 파이썬 빅데이터 분석(한빛 아카데미)

01 [영문 분석 + 워드클라우드]

영문 문서 제목의 키워드 분석하기

!pip install matplotlib
!pip install wordcloud
!pip install nltk
import nltk
import nltk
import nltk
import nltk
import pandas as pd
import glob
import re
from functools import reduce
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from collections import Counter
import matplotlib.pyplot as plt
from wordcloud import STOPWORDS, WordCloud

all_files = glob.glob('myCabinetExcelData*.xls')
all_files   #출력하여 내용 확인
['myCabinetExcelData (4).xls',
 'myCabinetExcelData (2).xls',
 'myCabinetExcelData (3).xls',
 'myCabinetExcelData (8).xls',
 'myCabinetExcelData (6).xls',
 'myCabinetExcelData (9).xls',
 'myCabinetExcelData (7).xls',
 'myCabinetExcelData (5).xls',
 'myCabinetExcelData (1).xls']
 all_files_data = []     #저장할 리스트
for file in all_files:
    data_frame = pd.read_excel(file)
all_files_data[0]      #작업 내용 확인

all_files_data_concat = pd.concat(all_files_data, axis = 0, ignore_index = True)
all_files_data_concat   #출력하여 내용 확인

all_files_data_concat.to_csv('riss_bigdata.csv', encoding = 'utf-8', index = False)

데이터 전처리

all_title = all_files_data_concat['제목']
all_title   #출력하여 내용 확인
0      A Big-Data-based platform of workers’ behavior...
1      Using Big-data and Surface Fitting to Improve ...
2      Using Big-data and Surface Fitting to Improve ...
3      A big-data method to predict the targets of sm...
4      Social Big-Data-Based Content Dissemination in...
995    Optimized Deep Learning for EEG Big Data and S...
996    DiP-SVM : Distribution Preserving Kernel Suppo...
997    Perceptions of independent financial advisors ...
998    Fast approaches for semantic service compositi...
999    Availability modelling and assurance for a big...
Name: 제목, Length: 1000, dtype: object

stopWords = set(stopwords.words("english"))
lemma = WordNetLemmatizer()

words = []

for title in all_title:
    EnWords = re.sub(r"[^a-zA-Z]+", " ", str(title))
    EnWordsToken = word_tokenize(EnWords.lower())
    EnWordsTokenStop = [w for w in EnWordsToken if w not in stopWords]
    EnWordsTokenStopLemma = [lemma.lemmatize(w) for w in EnWordsTokenStop]
    print(words)    #출력하여 내용 확인
words2 = list(reduce(lambda x, y: x+y, words))
print(words2)   #출력하여 내용 확인
데이터 탐색 및 분석 모델 구축

count = Counter(words2)
count   #출력하여 내용 확인
Counter({'big': 1116,
         'data': 1240,
         'based': 96,
         'platform': 32,
         'worker': 3,
         'behavior': 9,
         'observation': 6,
         'field': 5,
         'using': 54,
         'surface': 2,
         'fitting': 2,
         'improve': 10,
         'aircraft': 2,
         'safety': 10,
         'study': 17,
         'relationship': 7,
         'anomaly': 3,
         'method': 21,
         'predict': 2,
         'target': 4,
         'small': 18,
         'molecule': 1,
         'accelerate': 1,
         'drug': 8,
         'discovery': 13,
         'social': 17,
         'content': 4,
         'dissemination': 2,
         'internet': 18,
         'vehicle': 6,
         'analysis': 89,
         'disaster': 8,
         'information': 22,
         'south': 2,
         'korea': 2,
         'real': 20,
         'world': 20,
         'laboratory': 2,
         'medicine': 10,
         'current': 8,
         'status': 5,
         'application': 44,
         'future': 18,
         'consideration': 3,
         'applying': 4,
         'technology': 26,
         'network': 24,
         'architecture': 11,
         'ecology': 4,
         'approach': 55,
         'lead': 1,
         'increased': 2,
         'understanding': 11,
         'animal': 1,
         'movement': 1,
         'persisting': 1,
         'nosql': 4,
         'landscape': 2,
         'political': 7,
         'rhetoric': 1,
         'relating': 1,
         'development': 18,
         'united': 5,
         'state': 12,
         'china': 18,
         'global': 9,
         'power': 6,
         'thematic': 1,
         'business': 25,
         'ethic': 3,
         'security': 15,
         'mechanism': 2,
         'fully': 1,
         'homomorphic': 1,
         'encryption': 2,
         'cubic': 1,
         'spline': 1,
         'curve': 1,
         'public': 9,
         'key': 4,
         'cryptography': 2,
         'perspective': 26,
         'ai': 4,
         'newton': 1,
         'merton': 1,
         'analytics': 108,
         'intelligence': 21,
         'spatial': 8,
         'temporal': 3,
         'bovine': 1,
         'tuberculosis': 1,
         'wildlife': 1,
         'badger': 1,
         'cattle': 1,
         'company': 8,
         'enter': 1,
         'classroom': 1,
         'pioneer': 1,
         'issue': 48,
         'warning': 2,
         'model': 45,
         'multi': 11,
         'modal': 1,
         'transportation': 8,
         'macroscopic': 1,
         'control': 11,
         'optimisation': 1,
         'oriented': 5,
         'recommendation': 6,
         'objective': 1,
         'optimization': 22,
         'sears': 1,
         'strategy': 10,
         'service': 21,
         'call': 31,
         'away': 1,
         'job': 2,
         'outlook': 1,
         'encouraging': 1,
         'gm': 1,
         'plan': 1,
         'hire': 1,
         'hp': 1,
         'employee': 2,
         'dynamic': 9,
         'broadcast': 1,
         'fat': 1,
         'tree': 3,
         'center': 9,
         'mobile': 6,
         'iot': 11,
         'device': 8,
         'becoming': 4,
         'savvy': 2,
         'bifm': 1,
         'driven': 67,
         'intelligent': 13,
         'forecasting': 6,
         'covid': 6,
         'distributed': 22,
         'via': 8,
         'blockwise': 1,
         'gradient': 1,
         'tracking': 4,
         'industrial': 8,
         'cps': 1,
         'adaptive': 5,
         'production': 5,
         'scheduling': 10,
         'smart': 28,
         'manufacturing': 6,
         'wireless': 6,
         'use': 21,
         'case': 12,
         'solution': 12,
         'trend': 9,
         'streetlytics': 1,
         'estate': 1,
         'market': 10,
         'rating': 3,
         'framework': 35,
         'measuring': 1,
         'human': 11,
         'mobility': 5,
         'app': 1,
         'usage': 1,
         'analyzing': 6,
         'modeling': 15,
         'non': 5,
         'pharmaceutical': 4,
         'intervention': 1,
         'pandemic': 3,
         'recent': 4,
         'struggle': 1,
         'birthing': 1,
         'pain': 4,
         'researcher': 2,
         'say': 2,
         'selbstlernende': 1,
         'analysen': 1,
         'f': 5,
         'r': 9,
         'intelligentes': 1,
         'energiemanagement': 1,
         'capturing': 2,
         'visitor': 1,
         'activity': 3,
         'flow': 5,
         'island': 1,
         'country': 1,
         'research': 27,
         'mining': 26,
         'visualization': 8,
         'tensor': 4,
         'routing': 2,
         'heterogeneous': 6,
         'comprehensive': 3,
         'monitoring': 12,
         'system': 59,
         'yield': 2,
         'enhancement': 1,
         'semiconductor': 1,
         'cloud': 30,
         'unmanned': 2,
         'ground': 3,
         'improving': 3,
         'optimizing': 4,
         'read': 1,
         'editorial': 15,
         'advanced': 6,
         'tool': 4,
         'high': 12,
         'throughput': 2,
         'omics': 1,
         'traditional': 3,
         'v': 4,
         'fashion': 1,
         'examination': 1,
         'wgsn': 1,
         'edited': 2,
         'partitioned': 1,
         'asynchronous': 1,
         'dual': 2,
         'decomposition': 2,
         'lesson': 4,
         'project': 5,
         'four': 1,
         'health': 33,
         'illustrate': 1,
         'potential': 9,
         'shared': 2,
         'national': 5,
         'multipurpose': 1,
         'ibm': 1,
         'stellt': 1,
         'au': 1,
         'twitter': 4,
         'vor': 1,
         'leveraging': 9,
         'revolution': 12,
         'cm': 1,
         'expanding': 3,
         'capability': 9,
         'spur': 1,
         'transformation': 7,
         'st': 1,
         'century': 1,
         'investing': 1,
         'soaring': 1,
         'despite': 1,
         'price': 4,
         'still': 2,
         'possible': 1,
         'cash': 1,
         'advancing': 2,
         'conceptual': 4,
         'symbiosis': 1,
         'exploring': 8,
         'waste': 2,
         'stream': 6,
         'ari': 1,
         'caroline': 1,
         'guru': 1,
         'mine': 3,
         'help': 6,
         'cancer': 5,
         'patient': 12,
         'resource': 6,
         'career': 2,
         'methodology': 4,
         'time': 19,
         'sustainability': 1,
         'city': 8,
         'towards': 11,
         'inferencing': 1,
         'conex': 1,
         'efficient': 18,
         'exploration': 1,
         'configuration': 1,
         'better': 3,
         'performance': 20,
         'daten': 1,
         'und': 6,
         'diabetes': 2,
         'medizin': 1,
         'edge': 3,
         'computing': 26,
         'enabled': 11,
         'electric': 4,
         'charging': 3,
         'accountability': 1,
         'algorithm': 32,
         'enhancing': 2,
         'physical': 4,
         'layer': 2,
         'aided': 1,
         'hybrid': 2,
         'relay': 1,
         'selection': 8,
         'depression': 1,
         'multimethod': 1,
         'investigation': 3,
         'american': 1,
         'emotional': 1,
         'response': 3,
         'trump': 1,
         'presidency': 1,
         'aligning': 1,
         'organizational': 3,
         'goal': 12,
         'semantic': 6,
         'interoperability': 2,
         'infrastructure': 12,
         'healthcare': 14,
         'middleware': 1,
         'managing': 6,
         'pipelined': 1,
         'gpu': 3,
         'mapreduce': 8,
         'processing': 27,
         'evaluation': 5,
         'formalism': 1,
         'pmu': 2,
         'medical': 14,
         'evidence': 9,
         'generation': 9,
         'practice': 10,
         'post': 1,
         'marketing': 6,
         'jbhi': 2,
         'special': 36,
         'situating': 1,
         'science': 34,
         'advance': 5,
         'challenge': 43,
         'integrative': 1,
         'biology': 4,
         'centrism': 1,
         'mapping': 6,
         'bioscience': 1,
         'w': 2,
         'matrix': 3,
         'comparative': 3,
         'scientific': 9,
         'image': 5,
         'workload': 2,
         'facebook': 1,
         'fiasco': 1,
         'rethink': 2,
         'abnormal': 2,
         'operation': 5,
         'gram': 1,
         'schmidt': 1,
         'orthogonalization': 1,
         'n': 1,
         'propyl': 1,
         'propionate': 1,
         'simulated': 1,
         'moving': 6,
         'bed': 1,
         'reactor': 1,
         'israeli': 1,
         'firm': 6,
         'medaware': 1,
         'offer': 5,
         'software': 5,
         'detect': 2,
         'prescription': 2,
         'error': 6,
         'graduate': 2,
         'program': 1,
         'analyst': 1,
         'cover': 2,
         'era': 31,
         'putting': 3,
         'pressure': 2,
         'storage': 9,
         'backwards': 1,
         'gwas': 1,
         'smallholder': 2,
         'need': 6,
         'access': 5,
         'agronomy': 1,
         'ultralow': 1,
         'memory': 6,
         'nonvolatile': 3,
         'domain': 2,
         'wall': 1,
         'nanowire': 1,
         'design': 8,
         'implementation': 4,
         'spark': 5,
         'distribution': 10,
         'interception': 1,
         'seeking': 2,
         'alpha': 1,
         'dividend': 2,
         'announcement': 1,
         'insight': 8,
         'joining': 2,
         'car': 5,
         'eva': 2,
         'style': 2,
         'interview': 3,
         'mit': 3,
         'stefan': 1,
         'wrobel': 1,
         'zum': 3,
         'thema': 2,
         'angewandte': 1,
         'forschung': 1,
         'stochastic': 4,
         'approximation': 5,
         'statistical': 8,
         'origin': 1,
         'multidisciplinary': 1,
         'code': 3,
         'offloading': 1,
         'scheme': 6,
         'android': 1,
         'fast': 3,
         'relaxation': 1,
         'process': 21,
         'page': 1,
         'phylogenomics': 1,
         'principle': 1,
         'opportunity': 29,
         'pitfall': 3,
         'phylogenetics': 2,
         'deadline': 4,
         'aware': 6,
         'flexible': 3,
         'bandwidth': 1,
         'allocation': 5,
         'transfer': 2,
         'ad': 2,
         'exec': 1,
         'draper': 1,
         'education': 9,
         'grand': 3,
         'convergence': 2,
         'fitnessgram': 1,
         'digital': 15,
         'commerce': 3,
         'child': 3,
         'vergleich': 1,
         'von': 2,
         'kompetenzanforderungen': 1,
         'spezialisten': 1,
         'starting': 2,
         'think': 7,
         'clinical': 8,
         'detection': 12,
         'early': 1,
         'stage': 1,
         'bipolar': 1,
         'disorder': 1,
         'assessment': 9,
         'learning': 46,
         'pwr': 1,
         'pin': 1,
         'homogenized': 1,
         'cross': 2,
         'section': 1,
         'x': 3,
         'c': 3,
         'qualitative': 3,
         'readiness': 1,
         'requirement': 1,
         'enterprise': 8,
         'investment': 1,
         'economics': 1,
         'econophysics': 1,
         'fine': 3,
         'grained': 1,
         'predicting': 7,
         'pattern': 10,
         'large': 14,
         'scale': 13,
         'triadic': 1,
         'patent': 1,
         'kidney': 1,
         'disease': 9,
         'ck': 1,
         'net': 1,
         'dream': 2,
         'symposium': 1,
         'insure': 1,
         'tech': 1,
         'digitalization': 1,
         'technique': 11,
         'risk': 13,
         'management': 34,
         'insurance': 2,
         'note': 1,
         'hci': 1,
         'multimedia': 5,
         'randomized': 3,
         'block': 1,
         'proximal': 1,
         'kernel': 5,
         'sieben': 1,
         'schritten': 1,
         'erfolgreichen': 1,
         'projekt': 1,
         'message': 4,
         'agenda': 2,
         'setting': 1,
         'ownership': 3,
         'architecting': 1,
         'critical': 6,
         'computation': 3,
         'migration': 1,
         'new': 40,
         'execute': 1,
         'bioinformatics': 2,
         'workflow': 3,
         'trust': 1,
         'crowdfunding': 2,
         'campaign': 2,
         'theoretical': 6,
         'underpinnings': 1,
         'correction': 4,
         'predictive': 8,
         'bigger': 4,
         'really': 2,
         'junqu': 1,
         'de': 2,
         'fortuny': 1,
         'e': 7,
         'marten': 1,
         'provost': 1,
         'training': 3,
         'pedagogy': 1,
         'value': 11,
         'biosurveillance': 1,
         'natural': 2,
         'capital': 2,
         'accounting': 2,
         'diversity': 2,
         'review': 23,
         'scalable': 14,
         'quality': 10,
         'pythia': 1,
         'handling': 5,
         'missing': 1,
         'structural': 3,
         'consequence': 2,
         'bring': 1,
         'beyond': 3,
         'hype': 2,
         'role': 12,
         'teamwork': 1,
         'visual': 3,
         'box': 1,
         'office': 1,
         'prediction': 15,
         'scholarly': 5,
         'survey': 20,
         'boe': 1,
         'fusing': 1,
         'spanish': 1,
         'official': 1,
         'gazette': 1,
         'sport': 4,
         'toward': 6,
         'next': 9,
         'frontier': 4,
         'water': 4,
         'cycle': 1,
         'remote': 3,
         'sensing': 7,
         'overview': 3,
         'artificial': 4,
         'fusion': 5,
         'context': 10,
         'crown': 1,
         'epidemic': 1,
         'idea': 2,
         'geological': 1,
         'decision': 16,
         'making': 17,
         'author': 2,
         'gong': 1,
         'comment': 1,
         'computational': 8,
         'propaganda': 3,
         'paper': 30,
         'futuristic': 3,
         'fabric': 3,
         'societal': 3,
         'multiple': 3,
         'measurement': 9,
         'extended': 3,
         'binary': 2,
         'phase': 4,
         'shift': 2,
         'keying': 1,
         'transceiver': 1,
         'persona': 1,
         'shape': 1,
         'demographic': 2,
         'representation': 1,
         'user': 4,
         'segment': 2,
         'essential': 1,
         'urban': 7,
         'land': 2,
         'category': 1,
         'euluc': 1,
         'geospatial': 4,
         'progress': 2,
         'rf': 1,
         'localisation': 1,
         'search': 7,
         'rescue': 2,
         'guest': 12,
         'medium': 14,
         'part': 2,
         'biomedical': 3,
         'accurate': 4,
         'cluster': 5,
         'competitive': 6,
         'k': 8,
         'mean': 8,
         'privacy': 12,
         'secdedoop': 1,
         'secure': 3,
         'deduplication': 3,
         'hdfs': 1,
         'hadoop': 4,
         'environment': 12,
         'cognitive': 4,
         'green': 4,
         'space': 5,
         'actual': 1,
         'utilization': 4,
         'deep': 12,
         'assisted': 4,
         'earth': 24,
         'engagement': 1,
         'stakeholder': 3,
         'hungary': 1,
         'support': 11,
         'sdgs': 1,
         'atmospheric': 1,
         'ecosystem': 2,
         'providing': 1,
         'contribution': 1,
         'reaching': 1,
         'nation': 1,
         'sustainable': 17,
         'strength': 1,
         'number': 2,
         'simplify': 1,
         'sentiment': 4,
         'classification': 9,
         'lost': 2,
         'bee': 1,
         'colony': 1,
         'reinforced': 1,
         'kalman': 1,
         'filter': 3,
         'localization': 2,
         'thing': 16,
         'blending': 1,
         'finding': 4,
         'position': 3,
         'reference': 3,
         'node': 1,
         'labor': 2,
         'economist': 1,
         'get': 2,
         'microscope': 1,
         'agricultural': 5,
         'population': 4,
         'monitor': 1,
         'celebration': 2,
         'establishment': 3,
         'international': 6,
         'cbas': 2,
         'editor': 3,
         'chief': 1,
         'understand': 1,
         'condition': 2,
         'kavli': 1,
         'oceanography': 1,
         'continued': 3,
         'machine': 26,
         'engineering': 12,
         'rst': 1,
         'rough': 1,
         'set': 4,
         'differential': 1,
         'evolution': 5,
         'feature': 6,
         'biological': 1,
         'cybersecurity': 3,
         'behaviour': 1,
         'swimming': 1,
         'pool': 1,
         'impact': 15,
         'household': 1,
         'intensity': 7,
         'san': 1,
         'antonio': 1,
         'texas': 1,
         'exploiting': 2,
         'reused': 1,
         'sharing': 7,
         'work': 10,
         'multiquery': 1,
         'flink': 2,
         'robotics': 3,
         'literature': 5,
         'analyze': 2,
         'stock': 4,
         'dilemma': 1,
         'behavioral': 3,
         'ensemble': 4,
         'complex': 3,
         'iotbds': 1,
         'complexis': 1,
         'pervasive': 1,
         'care': 11,
         'programming': 3,
         'mr': 2,
         'dp': 1,
         'priority': 1,
         'u': 9,
         'army': 2,
         'person': 1,
         'event': 1,
         'military': 1,
         'civilian': 1,
         'monkeyking': 1,
         'parameter': 1,
         'tuning': 1,
         'reinforcement': 1,
         'soft': 2,
         'moth': 2,
         'flame': 2,
         'bat': 2,
         'map': 4,
         'reduce': 2,
         'clustering': 10,
         'sparse': 4,
         'fuzzy': 6,
         'bibliometric': 4,
         'relevant': 2,
         'remotely': 1,
         'sensed': 1,
         'ocean': 2,
         'polar': 1,
         'region': 4,
         'protecting': 1,
         'virtualized': 1,
         'unstructured': 2,
         'analytical': 2,
         'perception': 3,
         'good': 6,
         'optimal': 2,
         'firefly': 1,
         'lion': 1,
         'online': 15,
         'guangzhou': 1,
         'restaurant': 1,
         'school': 4,
         'relate': 1,
         'little': 11,
         'coordination': 1,
         'medicare': 1,
         'beneficiary': 1,
         'medigap': 1,
         'coverage': 2,
         'drive': 2,
         'introducing': 1,
         'perform': 1,
         'gsio': 1,
         'programmatic': 1,
         'interface': 2,
         'delivering': 1,
         'view': 5,
         'cube': 1,
         'semantics': 4,
         'ontology': 3,
         'knowledge': 12,
         'graph': 5,
         'core': 3,
         'processor': 4,
         'many': 1,
         'co': 2,
         'supercomputer': 1,
         'beacon': 1,
         'geocomputation': 1,
         'geo': 2,
         'simulation': 3,
         'first': 3,
         'experience': 3,
         'timescan': 1,
         'chain': 6,
         'climate': 2,
         'change': 3,
         'sentinel': 2,
         'landsat': 2,
         'imagery': 1,
         'settlement': 1,
         'stewardship': 1,
         'geosocial': 1,
         'crowdsourced': 1,
         'vector': 3,
         'generalized': 3,
         'supervised': 2,
         'produce': 1,
         'provincial': 1,
         'wetland': 1,
         'inventory': 1,
         'google': 4,
         'engine': 3,
         'facilitates': 1,
         'evaluating': 5,
         'partnership': 1,
         'increasing': 1,
         'australian': 1,
         'way': 6,
         'web': 8,
         'open': 5,
         'innovative': 1,
         'transport': 2,
         'pipeline': 3,
         'greater': 1,
         'sydney': 1,
         'achieving': 1,
         'belt': 2,
         'road': 1,
         'wechat': 1,
         'blood': 2,
         'donation': 2,
         'simd': 1,
         'parallel': 7,
         'mcmc': 1,
         'sampling': 4,
         'bayesian': 4,
         'educational': 2,
         'shuffle': 1,
         'biggest': 3,
         'repository': 2,
         'balloon': 1,
         'unprecedented': 1,
         'level': 2,
         'coping': 3,
         'sector': 6,
         'transforming': 6,
         'nearest': 4,
         'neighbor': 3,
         'obtain': 1,
         'meet': 6,
         'formal': 1,
         'practical': 4,
         'novel': 9,
         'paradigm': 4,
         'organisation': 2,
         'leverage': 3,
         'maturity': 1,
         'quantile': 1,
         'regression': 2,
         'divide': 2,
         'conquer': 1,
         'financial': 10,
         'double': 1,
         'log': 2,
         'skew': 1,
         'symmetric': 1,
         'result': 2,
         'output': 1,
         'attribute': 1,
         'designing': 2,
         'operating': 1,
         'discretization': 1,
         'taxonomy': 1,
         'always': 1,
         'benefit': 5,
         'geographical': 1,
         'build': 2,
         'em': 2,
         'automated': 1,
         'slicing': 1,
         'validation': 1,
         'integration': 4,
         'theme': 1,
         'crime': 1,
         'detailed': 1,
         'prominent': 1,
         'compression': 5,
         'used': 5,
         'reducing': 2,
         'volume': 2,
         'recombine': 1,
         'complexity': 1,
         'electrophysiology': 2,
         'collection': 2,
         'haery': 1,
         'query': 3,
         'accumulative': 1,
         'dimensional': 3,
         'gamma': 1,
         'summarize': 1,
         'dense': 1,
         'experimental': 2,
         'kansei': 1,
         'hotel': 1,
         'criminal': 2,
         'done': 1,
         'portfolio': 2,
         'successful': 1,
         'swarm': 3,
         'single': 2,
         'cell': 4,
         'transcriptomics': 1,
         'five': 3,
         'cyber': 2,
         'acquired': 1,
         'multichannel': 1,
         'sensor': 7,
         'active': 1,
         'grid': 6,
         'industry': 16,
         'academic': 2,
         'librarian': 4,
         'competency': 2,
         'skill': 2,
         'library': 1,
         'chicken': 1,
         'foraging': 1,
         'belief': 2,
         'classifier': 3,
         'entity': 1,
         'communication': 6,
         'peer': 2,
         'produced': 1,
         'implicit': 2,
         'collaboration': 6,
         'wikipedia': 1,
         'apache': 4,
         'revised': 1,
         'pyramid': 1,
         'conference': 2,
         'bigcomp': 1,
         'improves': 1,
         'michael': 2,
         'buck': 2,
         'talk': 1,
         'living': 1,
         'bioinformaticist': 1,
         'emerging': 3,
         'alternative': 2,
         'warehouse': 4,
         'partner': 1,
         'allina': 1,
         'team': 5,
         'catalyst': 2,
         'garner': 1,
         'dimensionality': 1,
         'reduction': 3,
         'problem': 11,
         'sdn': 1,
         'coal': 1,
         'fired': 1,
         'plant': 1,
         'fundamental': 1,
         'mongodb': 1,
         'modular': 1,
         'building': 7,
         'deal': 5,
         'heavy': 1,
         'tailed': 1,
         'rule': 4,
         'granularity': 1,
         'phone': 1,
         'compute': 2,
         'scenario': 4,
         'retail': 1,
         'apriori': 1,
         'straggler': 1,
         'rescheduling': 1,
         'slow': 1,
         'running': 1,
         'task': 2,
         'lfcso': 1,
         'lvq': 1,
         'enhanced': 4,
         'pso': 1,
         'subdata': 1,
         'unlocking': 1,
         'causal': 2,
         'relation': 2,
         'barrier': 2,
         'skyline': 1,
         'telecom': 2,
         'fraud': 2,
word_count = dict()

for tag, counts in count.most_common(50):
        word_count[tag] = counts
        print("%s : %d % (tag, counts")
sorted_Keys = sorted(word_count, key = word_count.get, reverse = True)
sorted_Values = sorted(word_count.values(), reverse = True)
plt.bar(range(len(word_count)), sorted_Values, align = 'center')
plt.xticks(range(len(word_count)), list(sorted_Keys), rotation = '85')
결과 시각화

all_files_data_concat['doc_count'] = 0
summary_year = all_files_data_concat.groupby('출판일', as_index = False)['doc_count'].count()
summary_year    #출력하여 내용 화인

plt.figure(figsize = (12, 5))
plt.plot(range(len(summary_year)), summary_year['doc_count'])
plt.xticks(range(len(summary_year)), [text for text in summary_year['출판일']])

stopwords = set(STOPWORDS)
wc = WordCloud(background_color = 'ivory', stopwords = stopwords, width = 800, height = 600)
cloud = wc.generate_from_frequencies(word_count)
plt.figure(figsize = (8,8))
02 [한글 분석 + 워드클라우드]

한글 뉴스 기사의 키워드 분석하기

!pip install konlpy
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Requirement already satisfied: konlpy in /usr/local/lib/python3.8/dist-packages (0.6.0)
Requirement already satisfied: lxml>=4.1.0 in /usr/local/lib/python3.8/dist-packages (from konlpy) (4.9.2)
Requirement already satisfied: JPype1>=0.7.0 in /usr/local/lib/python3.8/dist-packages (from konlpy) (1.4.1)
Requirement already satisfied: numpy>=1.6 in /usr/local/lib/python3.8/dist-packages (from konlpy) (1.21.6)
Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from JPype1>=0.7.0->konlpy) (21.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in /usr/local/lib/python3.8/dist-packages (from packaging->JPype1>=0.7.0->konlpy) (3.0.9)

import json
import re
from konlpy.tag import Okt
from collections import Counter
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
from wordcloud import WordCloud

inputFileName = 'etnews.kr_facebook_2016-01-01_2018-08-01_4차 산업혁명'
data = json.loads(open(inputFileName+'.json', 'r', encoding = 'utf-8').read())
data    #출력하여 내용 확인
[{'created_time': '2018-06-20 18:06:39',
  'link': 'https://www.facebook.com/etnews.kr/videos/1981346601899735/',
  'message': '6월의 스파크포럼 - "미래 시대, 조직의 변화도 시작됐다!"\n\n스파크포럼은 현 사회의 사회문제 및 이슈를 제기하고, 그 이슈를 혁신적으로 해결하고자 하는 소셜이노베이터를 발굴, 지원하여 우리 사회 따뜻한 변화를 확산시키지 위해 만들어진 도전과 만남의 자리입니다.\n\n6월의 스파크포럼에서는 4차 산업혁명 시대의 기업조직과 조직문화를 살펴보고, 조직의 변화를 받아들이고 실험해나가는 사례를 통해 미래 시대 조직이 나아가야 할 방향을 함께 생각해보고자 합니다.',
  'name': '6월의 스파크포럼 - "미래 시대, 조직의 변화도 시작됐다!"',
  'post_id': '407886705912407_1981346601899735',
  'total_comments': 3},
 {'created_time': '2018-06-14 10:41:16',
  'link': 'http://www.etnews.com/20180612000347',
  'message': '로봇이 4차 산업혁명 주요 성장 동력으로 떠오르면서 국내 로봇 기업에 재평가가 이뤄지고 있다는 분석입니다.',
  'name': '기술력 갖춘 로봇기업 몸값 치솟는다',
  'post_id': '407886705912407_1971252229575839',
  'total_comments': 0},
 {'created_time': '2018-04-10 17:42:00',
  'link': 'http://www.etnews.com/20180409000360?mc=em_002_00001',
  'message': '4차 산업혁명 시대 금융 산업 전반 점검해야 한다는...',
  'name': "휘청거리는 대한민국 '금융'...서민도 기업도 ICT도 실종",
  'post_id': '407886705912407_1900738133293916',
  'total_comments': 0},
 {'created_time': '2018-03-05 12:05:00',
  'link': 'https://goo.gl/qPEyAJ',
  'message': "공통 간판 공약은 '4차 산업혁명 선도 도시 구현'과 '가상화폐·블록체인 기술 활용' 등입니다. https://goo.gl/qPEyAJ",
  'name': "지방선거 D-100 정책 공약 '4차산업혁명'에 초점",
  'post_id': '407886705912407_1859978837369846',
  'total_comments': 0},
 {'created_time': '2018-02-05 17:20:01',
  'link': 'http://www.etnews.com/20180205000237',
  'message': '이번 과정은 4차 산업혁명 핵심 기술인 AI에 대한 통찰력과 알파고를 통해 우리 일상과 익숙해진 로봇, 빅데이터 산업 흐름을 알려줍니다. #인공지능 #최고위과정 #산학연최고전문가 https://goo.gl/jSZSNX',
  'name': '[알림]제2기 인공지능 최고위 과정 모집',
  'post_id': '407886705912407_1829059807128416',
  'total_comments': 0},
 {'created_time': '2018-01-29 23:39:00',
  'link': 'http://www.etnews.com/20180129000403?mc=em_003_00001',
  'message': '4차 산업혁명 모든 기술과 서비스 구현',
  'name': "첫 스마트시티 '부산·세종' 낙점...규제 프리존으로",
  'post_id': '407886705912407_1821177084583355',
  'total_comments': 0},
 {'created_time': '2017-11-09 18:11:43',
  'link': 'http://www.sek.co.kr/2017/nbf',
  'message': '산업혁명의 나라, 영국엔 4차 산업혁명이 없다?\n한국-영국 경험과 지혜를 모으는 ‘미래비즈니스포럼 2017’ 개최',
  'name': '미래비즈니스포럼 2017 : 손에 잡히는 4차 산업혁명',
  'post_id': '407886705912407_1735224763178588',
  'total_comments': 0},
 {'created_time': '2017-10-25 13:08:49',
  'link': 'https://www.facebook.com/etnews.kr/videos/1720053844695680/',
  'message': "[전자신문TV 라이브] SBA 신직업위크\n\n4차 산업혁명 시대의 경쟁력 확보와 일자리 창출의 해법을 신직업에서 찾고 있는 서울산업진흥원(SBA)이 자신들의 역량과 노력을 모두 담은 '제 2회 신직업위크'를 진행하고 있습니다.\n\n이번 전자신문TV라이브는 서울 대치동 SBA 신직업교육센터에서 강만구 신직업교육팀장과 서지윤 신직업리서치팀수석, 윤석원 테스트웍스 대표 등과 함께 '제 2회 신직업위크'와 최신 신직업트렌드를 알아보는 시간으로 마련했습니다. 많은 시청 바랍니다. \n\n#전자신문 #전자신문엔터 #전자신문TV #라이브 #소셜방송 #현장라이브 #손보련 #신직업위크 #서울산업진흥원 #SBA #신직업 #서울 #강만구 #서지윤 #윤석원 #테스트웍스 #소프트웨어 #테스터 #소프트웨어테스터",
  'name': '[전자신문TV 라이브] SBA 신직업위크',
  'post_id': '407886705912407_1720053844695680',
  'total_comments': 0},
 {'created_time': '2017-10-06 11:50:00',
  'link': 'http://www.etnews.com/20171005000056?mc=em_011_00001',
  'message': '혹시 우리나라도?~~4차 산업혁명 시대 떠오르는 일자리 전략으로 강추~~',
  'name': '日, 인공지능 활용능력 자격시험 만든다',
  'post_id': '407886705912407_1700789646622100',
  'total_comments': 1},
 {'created_time': '2017-09-25 15:30:00',
  'link': 'http://www.etnews.com/20170924000106?mc=em_003_00001',
  'message': '4차 산업혁명 대응에 가장 강점 분야는 5세대 이동통신...건강한 산업 생태계 조성 노력 강조',
  'name': "김상조 공정위원장 “기업집단국, 조사국과 달라…'존경받는 기업' 만드는 게 핵심”",
  'post_id': '407886705912407_1691461310888267',
  'total_comments': 0},
 {'created_time': '2017-08-29 00:54:00',
  'link': 'http://www.etnews.com/20170825000162?mc=em_009_00001',
  'message': "중앙부처 공무원 51.3% '4차 산업혁명 관련 가장 시급히 대응해야 할 기술적 과제'로 빅데이터 활용 꼽",
  'name': '현직 공무원들 "빅데이터·AI, 정책에 적극 활용"…4차 산업혁명 인식 높아',
  'post_id': '407886705912407_1665258370175228',
  'total_comments': 1},
 {'created_time': '2017-08-17 15:37:14',
  'link': 'https://www.facebook.com/etnews.kr/videos/1655135431187522/',
  'message': '[전자신문TV 라이브] 직격인터뷰 - 서울산업진흥원(SBA) 주형철 대표이사\n\n최근 각급 공공기관들이 4차 산업혁명기를 맞은 국내 중소기업의 경쟁력과 일자리 창출을 위해 노력하고 있는데요.\n\n이번 전자신문TV 라이브는 중소기업 활성화와 일자리 창출에 앞장서는 공공기관 중 대표적 사례로 꼽히는 서울산업진흥원 주형철 대표이사를 모시고 다양한 이야기를 듣는 시간으로 진행됩니다.\n\n#전자신문 #전자신문TV #서울산업진흥원 #SBA #주형철 #소성렬',
  'name': '[전자신문TV 라이브] 직격인터뷰 - 서울산업진흥원(SBA) 주형철 대표이사',
  'post_id': '407886705912407_1655135431187522',
  'total_comments': 15},
 {'created_time': '2017-08-12 17:48:00',
  'link': 'http://www.etnews.com/20170810000414?mc=em_009_00001',
  'message': '4차 산업혁명 대응은 일자리 창출과 함께 문재인 정부 주요 국정 과제인 데도 우선순위에서 밀렸다는 지적',
  'name': '4차 산업혁명위 출범 후순위로 밀렸다',
  'post_id': '407886705912407_1648865381814527',
  'total_comments': 0},
 {'created_time': '2017-06-09 22:00:00',
  'link': 'http://www.etnews.com/20170608000300?mc=em_009_00001',
  'message': '통합·개혁 행보에서 빠른 움직임을 보였지만 4차 산업혁명 등 신성장동력 창출에서는 한 발짝도 못 나갔다는 평입니다...',
  'name': "새정부 출범 한 달...'통합·개혁'엔 진일보, '4차 산업혁명 대응' 한발짝도 못 나가",
  'post_id': '407886705912407_1579376925430040',
  'total_comments': 4},
 {'created_time': '2017-05-24 18:30:00',
  'link': 'http://www.etnews.com/20170524000281?mc=em_001_00001',
  'message': "미래창조과학부가 주최하고 전자신문사, 한국경제신문, 한국정보통신진흥협회(KAIT) 주관으로 24일 서울 강남구 삼성동 코엑스에서 개막된 '월드IT쇼(WIS) 2017'은 4차 산업혁명이 더 이상 개념이 아니라 현실로 다가왔음을 입증했습니다~",
  'name': '[WIS 2017]4차 산업혁명, 현실과 마주한 날',
  'post_id': '407886705912407_1562807837086949',
  'total_comments': 0},
 {'created_time': '2017-05-17 18:38:04',
  'link': 'https://www.facebook.com/etnews.kr/photos/a.409377469096664/1556319464402453/?type=3',
  'message': '[전자신문TV 라이브 예고]\n이번 전자신문TV는 4차 산업혁명과 과학기술 영상컨퍼런스를 생중계합니다~! 광운대학교 이승현 교수님을 모시고 진행하는 이번 행사는 VR. AR 기술과 몰힙형 미디어에 대해 설명해 주신다고 합니다!\n\n이번 행사는 전자신문 Entertainment와 가상현실 스튜디오 솔루션을 제작한 다림비젼, 중견기업TV와 함께  4차 산업 정보 채널 IBSB(IT Tech. & Business SNS Broadcast)를 통해 진행합니다.\n\nIBSB는 전세계 4차 산업 혁명의 현장의 생생한 IT 소식과 정보, 컨퍼런스의 강연, VOD정보를 VR 기술과 원격 Live방송 기술을 중심으로 시간과 거리를 초월하는 실시간 TELE-Presentation 기술의 새로운 방송 서비스입니다.\n\n이런 유익한 강의를 전자신문 페이스북을 통해서 시청하실 수 있습니다~ 많은 관심부탁드립니다♥',
  'name': 'Timeline Photos',
  'post_id': '407886705912407_1556319464402453',
  'total_comments': 1},
 {'created_time': '2017-04-05 07:00:00',
  'link': 'http://www.etnews.com/20170404000230',
  'message': '대선 국면이지만 법안의 시급성 때문에 4차 산업혁명 대비 법제 개편 논의가 불붙을 전망입니다...',
  'name': "'4차 산업혁명 기본법' 나왔다…대선 기간 법제화 논의 불붙을듯",
  'post_id': '407886705912407_1505222409512159',
  'total_comments': 1},
 {'created_time': '2017-02-14 08:30:01',
  'link': 'http://www.etnews.com/20170213000307',
  'message': '4차 산업혁명 시대 대비!!!',
  'name': '[차기 정부 거버넌스 개편 방향 좌담회]"400조 정부, 혁신부총리가 답이다"',
  'post_id': '407886705912407_1452393468128387',
  'total_comments': 0},
 {'created_time': '2016-01-25 06:00:00',
  'link': 'http://www.etnews.com/20160124000075',
  'message': '‘#4차산업혁명 의 이해(Mastering the Fourth Industrial Revolution)’...\n23일 폐막한 #다보스포럼 에서는  4차 산업혁명 기대와 우려가 교차했는데요. 구글, 애플, 페이스북, 삼성전자, LG전자가 앞다퉈 4차 산업혁명 흐름에 뛰어 들고 있습니다.',
  'name': '[이슈분석]다보스포럼, 4차 산업혁명 기대와 우려 교차',
  'post_id': '407886705912407_1106254916075579',
  'total_comments': 0}]
 message = ''
for item in data:
    if 'message' in item.keys():
        message = message + re.sub(r'[^\w]', ' ', item['message']) +''
message #출력하여 내용 확인
6월의 스파크포럼    미래 시대  조직의 변화도 시작됐다    스파크포럼은 현 사회의 사회문제 및 이슈를 제기하고  그 이슈를 혁신적으로 해결하고자 하는 소셜이노베이터를 발굴  지원하여 우리 사회 따뜻한 변화를 확산시키지 위해 만들어진 도전과 만남의 자리입니다   6월의 스파크포럼에서는 4차 산업혁명 시대의 기업조직과 조직문화를 살펴보고  조직의 변화를 받아들이고 실험해나가는 사례를 통해 미래 시대 조직이 나아가야 할 방향을 함께 생각해보고자 합니다 로봇이 4차 산업혁명 주요 성장 동력으로 떠오르면서 국내 로봇 기업에 재평가가 이뤄지고 있다는 분석입니다 4차 산업혁명 시대 금융 산업 전반 점검해야 한다는   공통 간판 공약은  4차 산업혁명 선도 도시 구현 과  가상화폐 블록체인 기술 활용  등입니다  https   goo gl qPEyAJ이번 과정은 4차 산업혁명 핵심 기술인 AI에 대한 통찰력과 알파고를 통해 우리 일상과 익숙해진 로봇  빅데이터 산업 흐름을 알려줍니다   인공지능  최고위과정  산학연최고전문가 https   goo gl jSZSNX4차 산업혁명 모든 기술과 서비스 구현산업혁명의 나라  영국엔 4차 산업혁명이 없다  한국 영국 경험과 지혜를 모으는  미래비즈니스포럼 2017  개최 전자신문TV 라이브  SBA 신직업위크  4차 산업혁명 시대의 경쟁력 확보와 일자리 창출의 해법을 신직업에서 찾고 있는 서울산업진흥원 SBA 이 자신들의 역량과 노력을 모두 담은  제 2회 신직업위크 를 진행하고 있습니다   이번 전자신문TV라이브는 서울 대치동 SBA 신직업교육센터에서 강만구 신직업교육팀장과 서지윤 신직업리서치팀수석  윤석원 테스트웍스 대표 등과 함께  제 2회 신직업위크 와 최신 신직업트렌드를 알아보는 시간으로 마련했습니다  많은 시청 바랍니다     전자신문  전자신문엔터  전자신문TV  라이브  소셜방송  현장라이브  손보련  신직업위크  서울산업진흥원  SBA  신직업  서울  강만구  서지윤  윤석원  테스트웍스  소프트웨어  테스터 

nlp = Okt()
message_N = nlp.nouns(message)
message_N    #출력하여 내용 확인
count = Counter(message_N)
count   #출력하여 내용 확인
Counter({'스파크': 3,
         '포럼': 5,
         '미래': 3,
         '시대': 7,
         '조직': 4,
         '변화': 3,
         '시작': 1,
         '현': 1,
         '사회': 3,
         '문제': 1,
         '및': 1,
         '이슈': 2,
         '제기': 1,
         '그': 1,
         '혁신': 1,
         '해결': 1,
         '소셜': 2,
         '이노': 1,
         '베이': 1,
         '터': 4,
         '발굴': 1,
         '지원': 1,
         '우리': 2,
         '확산': 1,
         '위해': 2,
         '도전': 1,
         '만남': 1,
         '자리': 1,
         '차': 23,
         '산업혁명': 22,
         '기업': 3,
         '직문': 1,
         '실험': 1,
         '사례': 2,
         '통해': 4,
         '방향': 1,
         '생각': 1,
         '로봇': 3,
         '주요': 2,
         '성장': 1,
         '동력': 1,
         '국내': 2,
         '재': 1,
         '평가': 1,
         '분석': 1,
         '금융': 1,
         '산업': 10,
         '전반': 1,
         '점검': 1,
         '공통': 1,
         '간판': 1,
         '공약': 1,
         '선도': 1,
         '도시': 1,
         '구현': 1,
         '과': 1,
         '가상': 1,
         '화폐': 1,
         '블록': 1,
         '체인': 1,
         '기술': 8,
         '활용': 2,
         '등': 3,
         '이번': 6,
         '과정': 2,
         '핵심': 1,
         '대한': 1,
         '통찰': 1,
         '알파': 1,
         '일상': 1,
         '빅데이터': 2,
         '흐름': 2,
         '인공': 1,
         '지능': 1,
         '최고': 2,
         '위': 5,
         '산학': 1,
         '전문가': 1,
         '모든': 1,
         '서비스': 2,
         '나라': 1,
         '영국': 2,
         '한국': 2,
         '경험': 1,
         '지혜': 1,
         '비즈니스': 1,
         '개최': 1,
         '전자신문': 13,
         '라이브': 7,
         '직업': 10,
         '경쟁력': 2,
         '확보': 1,
         '일자리': 5,
         '창': 5,
         '해법': 1,
         '진흥': 6,
         '이': 1,
         '자신': 1,
         '역량': 1,
         '노력': 3,
         '모두': 1,
         '제': 2,
         '를': 2,
         '진행': 4,
         '서울': 3,
         '대치동': 1,
         '교육': 2,
         '센터': 1,
         '강': 2,
         '만구': 2,
         '팀': 2,
         '지윤': 2,
         '리서치': 1,
         '수석': 1,
         '윤석': 2,
         '테스트': 2,
         '웍스': 2,
         '대표': 2,
         '최신': 1,
         '트렌드': 1,
         '시간': 3,
         '마련': 1,
         '시청': 2,
         '방송': 3,
         '현장': 2,
         '손': 1,
         '보련': 1,
         '소프트웨어': 2,
         '테스': 2,
         '혹시': 1,
         '우리나라': 1,
         '전략': 1,
         '강추': 1,
         '대응': 3,
         '가장': 2,
         '강점': 1,
         '분야': 1,
         '세대': 1,
         '이동통신': 1,
         '생태계': 1,
         '조성': 1,
         '강조': 1,
         '중앙': 1,
         '부처': 1,
         '공무원': 1,
         '관련': 1,
         '과제': 2,
         '로': 1,
         '꼽': 1,
         '직': 1,
         '격인': 1,
         '터뷰': 1,
         '주형': 3,
         '철': 3,
         '대표이사': 2,
         '최근': 1,
         '급': 1,
         '공공기관': 2,
         '중소기업': 2,
         '활성화': 1,
         '중': 1,
         '모시': 2,
         '이야기': 1,
         '렬': 1,
         '문재인': 1,
         '정부': 1,
         '국정': 2,
         '우선': 1,
         '순위': 1,
         '지적': 1,
         '통합': 1,
         '개혁': 1,
         '행보': 1,
         '움직임': 1,
         '성장동력': 1,
         '발짝': 1,
         '못': 1,
         '평': 1,
         '미래창조과학부': 1,
         '주최': 1,
         '전자': 3,
         '신문사': 1,
         '경제': 1,
         '신문': 1,
         '보통신': 1,
         '협회': 1,
         '주관': 1,
         '강남구': 1,
         '삼성동': 1,
         '코엑스': 1,
         '개막': 1,
         '월드': 1,
         '쇼': 1,
         '은': 1,
         '더': 1,
         '이상': 1,
         '개념': 1,
         '현실': 1,
         '음': 1,
         '입증': 1,
         '예고': 1,
         '과학기술': 1,
         '영상': 1,
         '컨퍼런스': 2,
         '생중계': 1,
         '광운대': 1,
         '학교': 1,
         '이승현': 1,
         '교수': 1,
         '행사': 2,
         '몰힙형': 1,
         '미디어': 1,
         '대해': 1,
         '설명': 1,
         '가상현실': 1,
         '스튜디오': 1,
         '솔루션': 1,
         '제작': 1,
         '다림': 1,
         '비젼': 1,
         '중견': 1,
         '정보': 3,
         '채널': 1,
         '전세계': 1,
         '혁명': 1,
         '소식': 1,
         '강연': 1,
         '원격': 1,
         '중심': 1,
         '거리': 1,
         '초월': 1,
         '실시간': 1,
         '강의': 1,
         '페이스북': 2,
         '수': 1,
         '관심': 1,
         '대선': 1,
         '국면': 1,
         '법안': 1,
         '시급': 1,
         '때문': 1,
         '대비': 2,
         '법제': 1,
         '개편': 1,
         '논의': 1,
         '불': 1,
         '전망': 1,
         '의': 1,
         '이해': 1,
         '폐막': 1,
         '다보스': 1,
         '기대': 1,
         '우려': 1,
         '교차': 1,
         '구글': 1,
         '애플': 1,
         '삼성': 1,
         '앞': 1})
word_count = dict()
for tag, counts in count.most_common(80):
        word_count[tag] = counts
        print("%s : %d" % (tag, counts))
산업혁명 : 22
전자신문 : 13
산업 : 10
직업 : 10
기술 : 8
시대 : 7
라이브 : 7
이번 : 6
진흥 : 6
포럼 : 5
일자리 : 5
조직 : 4
통해 : 4
진행 : 4
스파크 : 3
미래 : 3
변화 : 3
사회 : 3
기업 : 3
로봇 : 3
노력 : 3
서울 : 3
시간 : 3
방송 : 3
대응 : 3
주형 : 3
전자 : 3
정보 : 3
이슈 : 2
소셜 : 2
우리 : 2
위해 : 2
사례 : 2
주요 : 2
국내 : 2
활용 : 2
과정 : 2
빅데이터 : 2
흐름 : 2
최고 : 2
서비스 : 2
영국 : 2
한국 : 2
경쟁력 : 2
교육 : 2
만구 : 2
지윤 : 2
윤석 : 2
테스트 : 2
웍스 : 2
대표 : 2
시청 : 2
현장 : 2
소프트웨어 : 2
테스 : 2
가장 : 2
과제 : 2
대표이사 : 2
공공기관 : 2
중소기업 : 2
모시 : 2
국정 : 2
컨퍼런스 : 2
행사 : 2
페이스북 : 2
대비 : 2
시작 : 1
문제 : 1

plt.rc('font', family ='NanumBarunGothic')

plt.figure(figsize = (12, 5))
sorted_Keys = sorted(word_count, key = word_count.get, reverse = True)
sorted_Values = sorted(word_count.values(), reverse = True)
plt.bar(range(len(word_count)), sorted_Values, align = 'center')
plt.xticks(range(len(word_count)), list(sorted_Keys), rotation = '75')

wc = WordCloud('NanumBarunGothic', background_color = 'ivory', width = 800, height = 600)
cloud = wc.generate_from_frequencies(word_count)
plt.figure(figsize = (8, 8))
<function matplotlib.pyplot.show(*args, **kw)>