본문 바로가기
반응형

전체 글230

[논문 리뷰] LightRAG: Simple and Fast Retrieval-Augmented Generation LightRAG는 그래프 기반 RAG (Retrieval-Augmented Generation) 시스템으로, 기존 RAG 시스템이 지닌 맥락 이해 부족과 데이터 처리 비효율성을 해결하기 위해 고안된 프레임워크입니다. 특히 그래프 기반의 텍스트 인덱싱과 이중 수준 검색 체계를 통해, LLM(대형 언어 모델)이 복잡한 질문에 대해 더욱 종합적인 응답을 제공할 수 있음을 실험적으로 증명합니다. 1. 연구 배경과 문제점기존 RAG 시스템의 한계: 현재의 RAG 시스템은 평면적 데이터 구조에 의존하여 복잡한 질의를 정확히 처리하기 어렵고, 개체 간 상호 관계를 이해하는 데 한계가 있습니다. 특히, 평면적 데이터 구조는 서로 관련 있는 정보를 적절히 연결하지 못해 단편적이거나 파편화된 응답을 초래할 수 있습니다.L.. 2024. 11. 16.
[논문 리뷰] A Multi-Task Benchmark for Korean Legal LanguageUnderstanding and Judgement Prediction 1. 연구 배경 및 목적 한국어 법률 데이터의 인공지능 활용 가능성을 확장하기 위한 대규모 데이터셋, LBOX OPEN을 구축한 연구입니다. 한국 법률 데이터는 법적 문서의 전문적 구성, 복잡한 구조 및 한국어의 고유한 언어적 특성 때문에 그 활용에 어려움이 존재합니다. 본 연구는 LBOX OPEN이라는 법률 예측 모델 개발을 위한 데이터셋을 통해 이러한 문제를 해결하고, 나아가 한국 법률 텍스트에 대한 자연어 이해(NLU) 모델 개발에 기여하고자 합니다. 연구의 주요 목적은 한국어로 작성된 민사 및 형사 판례 데이터를 체계적으로 수집하여, 법적 예측 모델을 학습하고 평가할 수 있는 환경을 제공하는 데 있습니다. LBOX OPEN은 특히 한국 법률에서 빈번하게 발생하는 하급 법원의 판례를 포함하여 법률 .. 2024. 11. 10.
[논문 리뷰] LAB: LARGE-SCALE ALIGNMENT FOR CHATBOTS 1. 연구 배경 및 목적 대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업에서 탁월한 성능을 보여 왔지만, 특정 도메인에 맞춤화하여 instruction-tuning을 수행할 때에는 막대한 비용과 시간이 요구됩니다. 특히, 고품질 데이터의 필요성과 GPT-4와 같은 독점적 모델에 대한 의존성은 데이터 접근성과 비용 효율성에서 큰 제약이 됩니다. IBM과 MIT-IBM Watson AI Lab의 연구팀은 이러한 문제를 해결하고자, 합성 데이터를 통한 비용 효율적 학습과 LAB(Large-scale Alignment for ChatBots) 방식을 통해 도메인에 최적화된 학습 방법론을 제안했습니다. Synthetic Labeling Method(SLM)을 기반으로 하는 이 방법론은 대형 모델을 .. 2024. 11. 3.
인터넷 연결 없이 생성 AI 구동? 스마트폰 내장 AI 1. 인터넷이 필요 없는 스마트폰 내장 AI 1.1. AI 최적화 인터페이스를 통한 사용자 경험 향상 스마트폰 내장 AI의 진화는 새로운 기능을 추가하는 것뿐만 아니라 사용자 경험을 재정의하는 것입니다. AI 기반 사용자 인터페이스(UI)는 점점 더 직관적이고, 반응이 빨라지고 있습니다. 예측 텍스트 입력, 스마트 알림, 상황 인식 지원 등은 AI 알고리즘이 사용자 행동을 분석하여 더 개인화되고, 효율적인 상호 작용을 제공하는 예입니다. 예를 들어, AI는 사용자가 하루 중 다른 시간에 열 가능성이 있는 앱을 예측하여 스마트폰의 성능과 배터리 수명을 최적화할 수 있습니다. 모바일 게임 및 엔터테인먼트도 스마트폰 내장 AI에 의해 변모되고 있습니다. AI 알고리즘은 그래픽 향상, 성능 최적화 및 플레이어의.. 2023. 12. 31.
SLM (Segmental Language Model): 중국어를 위한 비지도 신경 단어 분할 논문 링크 요약 SLM은 중국어 단어 분할을 위한 비지도 신경 모델로, 중국어의 특성상 명확한 단어 경계가 없기 때문에 중요한 연구 주제입니다. 이 모델은 중국어의 세그먼트 특성에 집중하여 설계되었습니다. 본 모델의 핵심은 두 가지 주요 구성 요소에 있습니다.Context Encoder: 이전의 콘텍스트를 인코딩하여 현재 세그먼트의 생성에 필요한 정보를 제공합니다. Segment Decoder: 인코딩된 콘텍스트를 기반으로 각 세그먼트를 점진적으로 생성합니다. 전통적인 언어 모델링은 문자 시퀀스의 결합 확률 함수를 학습하는 것을 목표로 합니다. 그러나 SLM에서는 세그먼트 언어 모델링을 도입하여 문자의 세그먼트 시퀀스의 결합 확률 함수를 학습합니다. 이를 통해 모델은 주어진 문장을 생성하기 위한 모든 가.. 2023. 10. 23.
LLaMA: 개방적이고 효율적인 기본 언어 모델 1. 서론 대규모 언어 모델(LLMs)은 텍스트 말뭉치에서 훈련되어 텍스트 지침이나 몇 가지 예제를 통해 새로운 작업을 수행하는 능력을 보여왔습니다. 이러한 능력은 모델의 크기를 확장함에 따라 더욱 명확해졌습니다. 주요 목표는 다양한 추론 예산에서 최상의 성능을 달성하기 위해 일반적으로 사용되는 것보다 더 많은 토큰에서 언어 모델을 훈련하는 것입니다. 이를 위해, 공개적으로 사용 가능한 데이터만을 사용하여 LLaMA라는 새로운 언어 모델을 개발되었습니다. 이 모델은 기존의 모델들과 비교하여 더 나은 성능을 보여주며, 동시에 훈련 및 추론 속도도 향상되었습니다. 2. 접근 방식 2.1 사전 훈련 데이터 훈련 데이터셋은 여러 출처의 혼합물로 구성되어 있으며, 대부분의 데이터는 훈련 중에 한 번만 사용됩니다... 2023. 9. 30.
T5 (Text-to-Text Transfer Transformer): 현대적 자연어 처리를 위한 통합 프레임워크 1. 서론 전통적인 자연어 처리(NLP) 모델은 특정 작업에 최적화된 다양한 아키텍처와 입력/출력 형식을 채택하였다. 예를 들어, 시퀀스-투-시퀀스(sequence-to-sequence) 모델, BERT와 같은 Transformer 기반의 모델, 그리고 LSTM 기반의 RNN 모델 등이 있다. 이러한 다양한 아키텍처는 각각의 작업에 특화된 성능을 제공하지만, 모델의 일반화 능력과 확장성에 있어서는 한계를 가지게 된다. 특히, 새로운 작업이나 도메인에 적용할 때, 모델 아키텍처나 학습 전략을 처음부터 재설계해야 하는 문제가 발생한다. T5는 이러한 문제점을 극복하기 위해 모든 NLP 작업을 텍스트에서 텍스트로의 변환 작업으로 일반화하고 단순화하는 방향으로 접근하였다. 이를 통해, 다양한 작업에 대한 통합된.. 2023. 9. 19.
LangChain(랭체인): 언어 모델을 활용한 체인 구조의 효율적인 학습 및 구현 1. 서론 언어 모델은 최근 Transformer 아키텍처와 Attention 메커니즘의 도입으로 인해 딥러닝 분야에서 큰 주목을 받고 있습니다. 그러나 대부분의 연구는 단일 언어 데이터에 초점을 맞추고 있으며, 여러 언어 데이터를 연결하여 활용하는 방법에 대한 연구는 부족합니다. 이에 Langchain이라는 새로운 프레임워크를 통해 이 문제를 해결하고자 합니다. 2. LangChain 프레임워크 Langchain은 여러 언어 데이터를 연결하여 하나의 체인 구조를 형성합니다. 각 노드는 특정 언어의 데이터를 나타내며, 이웃 노드와의 연결을 통해 정보를 교환하고 학습합니다. 이 과정에서 Backpropagation과 Gradient Descent 알고리즘을 활용하여 체인 전체의 최적화된 학습을 진행합니다... 2023. 9. 14.
딥러닝의 혁신, OpenAI API 1. 서론 OpenAI는 인공지능 연구와 개발을 주도하는 선도적인 기관 중 하나입니다. 그들의 GPT (Generative Pre-trained Transformer) 시리즈는 자연어 처리 분야에서 혁신적인 성과를 보여주었고, 이를 통해 다양한 응용 분야에서 활용되고 있습니다. OpenAI API는 이러한 GPT 모델을 개발자들이 쉽게 활용할 수 있도록 제공하는 서비스입니다. 2. OpenAI API 핵심 개념 2-1. Transformer Architecture Transformer Architecture는 자연어 처리(NLP) 분야에서 혁신적인 성과를 보여준 딥러닝 모델 아키텍처입니다. 이 아키텍처의 핵심은 "attention" 메커니즘에 있으며, 이를 통해 입력 시퀀스의 다양한 부분에 가중치를 부여.. 2023. 9. 13.
대규모 언어 모델, LLM LLM (Large Language Model)이란 무엇인가? LLM (Large Language Model)은 최근 자연어 처리(NLP) 분야에서 주목받는 딥 러닝 기반의 모델입니다. 이 모델은 특히 텍스트 데이터를 처리하는 데 있어 뛰어난 성능을 보이며, 그 규모와 복잡성 때문에 '대규모'라는 이름이 붙여졌습니다. LLM은 Transformer 아키텍처를 기반으로 합니다. Transformer는 Attention 메커니즘을 활용하여 입력 데이터의 다양한 부분에 주목하며, 이를 통해 문장 내의 단어나 구문 간의 관계를 더욱 정밀하게 파악할 수 있습니다. 이러한 구조는 LLM이 주어진 콘텍스트를 깊게 이해하고, 그에 따라 적절한 응답을 생성하는 데 중요한 역할을 합니다. LLM의 학습 과정은 일반적으로 .. 2023. 9. 3.
언어 모델로부터 만들어진 임베딩, ELMo ELMo (Embeddings from Language Models)는 2018년에 Allen Institute for Artificial Intelligence의 연구자들에 의해 제안된 새로운 형태의 워드 임베딩 방법입니다. ELMo는 전통적인 워드 임베딩 방법들과는 달리, 문맥을 고려한 워드 임베딩을 생성합니다. ELMo의 주요 특징 및 세부 사항은 다음과 같습니다. 1. 문맥 기반 워드 임베딩 양방향 LSTM 사용: ELMo는 양방향 LSTM (Bi-LSTM)을 사용하여 주어진 문장의 단어들을 처리합니다. 이를 통해 각 단어의 앞뒤 문맥 정보를 모두 포착할 수 있습니다. 다양한 수준의 문맥 정보: ELMo는 Bi-LSTM의 여러 층에서 얻은 임베딩을 결합하여 최종 임베딩을 생성합니다. 이렇게 하면 .. 2023. 8. 28.
구글이 만든 NLP 모델, BERT HBO시리즈 '세서미 스트리트'의 캐릭터 Bert에서 가져온 BERT(Bidirectional Encoder Representations from Transformers)는 2018년에 Google이 발표한 자연어 처리 (NLP) 모델입니다. BERT는 특히 문장이나 문단의 문맥을 이해하는 데 매우 효과적이며, 그 이후로 많은 NLP 작업에서 최첨단 성능을 보여줬습니다. Bidirectional (양방향): 전통적인 언어 모델들은 주로 한 방향 (왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽)으로 텍스트를 처리합니다. 그러나 BERT는 문장 내의 단어를 고려할 때 그 단어를 둘러싼 양쪽 문맥을 모두 사용하므로 "양방향"이라는 용어가 사용됩니다. Encoder: BERT는 Transformer 아키텍처의 인코더 부.. 2023. 8. 26.
반응형