논문 링크 요약 SLM은 중국어 단어 분할을 위한 비지도 신경 모델로, 중국어의 특성상 명확한 단어 경계가 없기 때문에 중요한 연구 주제입니다. 이 모델은 중국어의 세그먼트 특성에 집중하여 설계되었습니다. 본 모델의 핵심은 두 가지 주요 구성 요소에 있습니다.Context Encoder: 이전의 콘텍스트를 인코딩하여 현재 세그먼트의 생성에 필요한 정보를 제공합니다. Segment Decoder: 인코딩된 콘텍스트를 기반으로 각 세그먼트를 점진적으로 생성합니다. 전통적인 언어 모델링은 문자 시퀀스의 결합 확률 함수를 학습하는 것을 목표로 합니다. 그러나 SLM에서는 세그먼트 언어 모델링을 도입하여 문자의 세그먼트 시퀀스의 결합 확률 함수를 학습합니다. 이를 통해 모델은 주어진 문장을 생성하기 위한 모든 가..
1. 서론 전통적인 자연어 처리(NLP) 모델은 특정 작업에 최적화된 다양한 아키텍처와 입력/출력 형식을 채택하였다. 예를 들어, 시퀀스-투-시퀀스(sequence-to-sequence) 모델, BERT와 같은 Transformer 기반의 모델, 그리고 LSTM 기반의 RNN 모델 등이 있다. 이러한 다양한 아키텍처는 각각의 작업에 특화된 성능을 제공하지만, 모델의 일반화 능력과 확장성에 있어서는 한계를 가지게 된다. 특히, 새로운 작업이나 도메인에 적용할 때, 모델 아키텍처나 학습 전략을 처음부터 재설계해야 하는 문제가 발생한다. T5는 이러한 문제점을 극복하기 위해 모든 NLP 작업을 텍스트에서 텍스트로의 변환 작업으로 일반화하고 단순화하는 방향으로 접근하였다. 이를 통해, 다양한 작업에 대한 통합된..
1. 서론 언어 모델은 최근 Transformer 아키텍처와 Attention 메커니즘의 도입으로 인해 딥러닝 분야에서 큰 주목을 받고 있습니다. 그러나 대부분의 연구는 단일 언어 데이터에 초점을 맞추고 있으며, 여러 언어 데이터를 연결하여 활용하는 방법에 대한 연구는 부족합니다. 이에 Langchain이라는 새로운 프레임워크를 통해 이 문제를 해결하고자 합니다. 2. LangChain 프레임워크 Langchain은 여러 언어 데이터를 연결하여 하나의 체인 구조를 형성합니다. 각 노드는 특정 언어의 데이터를 나타내며, 이웃 노드와의 연결을 통해 정보를 교환하고 학습합니다. 이 과정에서 Backpropagation과 Gradient Descent 알고리즘을 활용하여 체인 전체의 최적화된 학습을 진행합니다...
실전 프로젝트 - CNN을 활용한 풍경(Scene) 이미지 분류 한 장의 풍경 이미지가 주어졌을 때, 어떠한 카테고리(category)에 속하는지 맞히는 분류 모델을 만드세요. 다음의 세 가지 대표적인 CNN 모델을 실습합니다. 성능을 올릴 수 있는 두 가지 심화 기법을 실습합니다. 본 프로젝트는 총 7개의 문제로 구성됩니다. (참고) 본 실습 코드에서는 빠른 결과 도출을 위해 30~50 epoch 정도만 학습합니다. Problem 1. 데이터셋 다운로드 및 분석하기 # 깃허브에서 데이터셋 다운로드하기 !git clone https://github.com/ndb796/Scene-Classification-Dataset-Split # 폴더 안으로 이동 %cd Scene-Classification-Datas..
음성 인식 및 분석은 딥러닝의 한 분야로, 이를 위해 여러 가지 알고리즘이 개발되었습니다. 이 중에서도, 음성의 특성을 분석하여 사람의 목소리와 AI가 생성한 목소리를 구별하는 방법 중 하나는 스펙트로그램을 사용하는 것입니다. 스펙트로그램은 시간에 따른 주파수의 분포를 시각화한 것으로, 음성의 특성을 잘 나타냅니다. 다음은 이를 구현하는 간단한 파이썬 코드입니다. 이 코드는 두 개의 오디오 파일(하나는 사람의 목소리, 다른 하나는 AI가 생성한 목소리)을 입력으로 받아, 각각의 스펙트로그램을 생성하고, 이를 비교하여 두 오디오 파일이 같은 소스에서 왔는지를 판단합니다. import numpy as np import matplotlib.pyplot as plt import scipy.io.wavfile a..
선형 시스템 연립일차방정식은 linear system(선형시스템)입니다. Gauss 소거법(2X3 liner systme) 3x + y + z = 4 x - 2y - z = 5 변수 하나씩 소거하면서 계산 이 방정식들을 각각 linear equation(선형방정식)이라 합니다. 선형대수(linear algebra)의 목표는 어떤 연립일차방정식 문제라도 정형적인 방법으로 표현하고, 해결하는 방법을 배우는 것입니다. Ax = b로 표현하기 1. 선형시스템의 unknowns(미지수)를 모아 column vector(열벡터) x로 표현합니다. 2. 선형시스템의 linear equation(선형방정식)에 대해 다음을 수행합니다. ● coefficients(계수)를 모아 A의 row vector(행벡터)로 표현합니..
- Total
- Today
- Yesterday
- 프로그래밍
- 데이터사이언스
- LV1
- 데이터 분석
- 캐글
- 머신러닝
- ML
- ai
- 데이터 시각화
- 알고리즘
- 데이터분석
- LV2
- 부스트코스
- Lv3
- 쿼리 테스트
- EDA
- nlp
- mysql
- 파이썬
- sql 테스트
- SQLD
- SQL
- Kaggle
- 인공지능
- API
- 프로그래머스
- Python
- lv4
- 태블로
- 딥러닝
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |