1. 연구 배경 및 목적 대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업에서 탁월한 성능을 보여 왔지만, 특정 도메인에 맞춤화하여 instruction-tuning을 수행할 때에는 막대한 비용과 시간이 요구됩니다. 특히, 고품질 데이터의 필요성과 GPT-4와 같은 독점적 모델에 대한 의존성은 데이터 접근성과 비용 효율성에서 큰 제약이 됩니다. IBM과 MIT-IBM Watson AI Lab의 연구팀은 이러한 문제를 해결하고자, 합성 데이터를 통한 비용 효율적 학습과 LAB(Large-scale Alignment for ChatBots) 방식을 통해 도메인에 최적화된 학습 방법론을 제안했습니다. Synthetic Labeling Method(SLM)을 기반으로 하는 이 방법론은 대형 모델을 ..
1. 인터넷이 필요 없는 스마트폰 내장 AI 1.1. AI 최적화 인터페이스를 통한 사용자 경험 향상 스마트폰 내장 AI의 진화는 새로운 기능을 추가하는 것뿐만 아니라 사용자 경험을 재정의하는 것입니다. AI 기반 사용자 인터페이스(UI)는 점점 더 직관적이고, 반응이 빨라지고 있습니다. 예측 텍스트 입력, 스마트 알림, 상황 인식 지원 등은 AI 알고리즘이 사용자 행동을 분석하여 더 개인화되고, 효율적인 상호 작용을 제공하는 예입니다. 예를 들어, AI는 사용자가 하루 중 다른 시간에 열 가능성이 있는 앱을 예측하여 스마트폰의 성능과 배터리 수명을 최적화할 수 있습니다. 모바일 게임 및 엔터테인먼트도 스마트폰 내장 AI에 의해 변모되고 있습니다. AI 알고리즘은 그래픽 향상, 성능 최적화 및 플레이어의..
논문 링크 요약 SLM은 중국어 단어 분할을 위한 비지도 신경 모델로, 중국어의 특성상 명확한 단어 경계가 없기 때문에 중요한 연구 주제입니다. 이 모델은 중국어의 세그먼트 특성에 집중하여 설계되었습니다. 본 모델의 핵심은 두 가지 주요 구성 요소에 있습니다.Context Encoder: 이전의 콘텍스트를 인코딩하여 현재 세그먼트의 생성에 필요한 정보를 제공합니다. Segment Decoder: 인코딩된 콘텍스트를 기반으로 각 세그먼트를 점진적으로 생성합니다. 전통적인 언어 모델링은 문자 시퀀스의 결합 확률 함수를 학습하는 것을 목표로 합니다. 그러나 SLM에서는 세그먼트 언어 모델링을 도입하여 문자의 세그먼트 시퀀스의 결합 확률 함수를 학습합니다. 이를 통해 모델은 주어진 문장을 생성하기 위한 모든 가..
1. 서론 대규모 언어 모델(LLMs)은 텍스트 말뭉치에서 훈련되어 텍스트 지침이나 몇 가지 예제를 통해 새로운 작업을 수행하는 능력을 보여왔습니다. 이러한 능력은 모델의 크기를 확장함에 따라 더욱 명확해졌습니다. 주요 목표는 다양한 추론 예산에서 최상의 성능을 달성하기 위해 일반적으로 사용되는 것보다 더 많은 토큰에서 언어 모델을 훈련하는 것입니다. 이를 위해, 공개적으로 사용 가능한 데이터만을 사용하여 LLaMA라는 새로운 언어 모델을 개발되었습니다. 이 모델은 기존의 모델들과 비교하여 더 나은 성능을 보여주며, 동시에 훈련 및 추론 속도도 향상되었습니다. 2. 접근 방식 2.1 사전 훈련 데이터 훈련 데이터셋은 여러 출처의 혼합물로 구성되어 있으며, 대부분의 데이터는 훈련 중에 한 번만 사용됩니다...
1. 서론 전통적인 자연어 처리(NLP) 모델은 특정 작업에 최적화된 다양한 아키텍처와 입력/출력 형식을 채택하였다. 예를 들어, 시퀀스-투-시퀀스(sequence-to-sequence) 모델, BERT와 같은 Transformer 기반의 모델, 그리고 LSTM 기반의 RNN 모델 등이 있다. 이러한 다양한 아키텍처는 각각의 작업에 특화된 성능을 제공하지만, 모델의 일반화 능력과 확장성에 있어서는 한계를 가지게 된다. 특히, 새로운 작업이나 도메인에 적용할 때, 모델 아키텍처나 학습 전략을 처음부터 재설계해야 하는 문제가 발생한다. T5는 이러한 문제점을 극복하기 위해 모든 NLP 작업을 텍스트에서 텍스트로의 변환 작업으로 일반화하고 단순화하는 방향으로 접근하였다. 이를 통해, 다양한 작업에 대한 통합된..
1. 서론 언어 모델은 최근 Transformer 아키텍처와 Attention 메커니즘의 도입으로 인해 딥러닝 분야에서 큰 주목을 받고 있습니다. 그러나 대부분의 연구는 단일 언어 데이터에 초점을 맞추고 있으며, 여러 언어 데이터를 연결하여 활용하는 방법에 대한 연구는 부족합니다. 이에 Langchain이라는 새로운 프레임워크를 통해 이 문제를 해결하고자 합니다. 2. LangChain 프레임워크 Langchain은 여러 언어 데이터를 연결하여 하나의 체인 구조를 형성합니다. 각 노드는 특정 언어의 데이터를 나타내며, 이웃 노드와의 연결을 통해 정보를 교환하고 학습합니다. 이 과정에서 Backpropagation과 Gradient Descent 알고리즘을 활용하여 체인 전체의 최적화된 학습을 진행합니다...
- Total
- Today
- Yesterday
- LV2
- 데이터 분석
- sql 테스트
- 딥러닝
- 파이썬
- 프로그래머스
- 부스트코스
- ai
- EDA
- 쿼리 테스트
- 데이터 시각화
- 알고리즘
- 태블로
- SQLD
- Lv3
- 머신러닝
- 데이터분석
- mysql
- 캐글
- lv4
- SQL
- Kaggle
- ML
- Python
- 프로그래밍
- API
- nlp
- LV1
- 인공지능
- 데이터사이언스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |