반응형 CrossEntropyLoss1 LLaMA: 개방적이고 효율적인 기본 언어 모델 1. 서론 대규모 언어 모델(LLMs)은 텍스트 말뭉치에서 훈련되어 텍스트 지침이나 몇 가지 예제를 통해 새로운 작업을 수행하는 능력을 보여왔습니다. 이러한 능력은 모델의 크기를 확장함에 따라 더욱 명확해졌습니다. 주요 목표는 다양한 추론 예산에서 최상의 성능을 달성하기 위해 일반적으로 사용되는 것보다 더 많은 토큰에서 언어 모델을 훈련하는 것입니다. 이를 위해, 공개적으로 사용 가능한 데이터만을 사용하여 LLaMA라는 새로운 언어 모델을 개발되었습니다. 이 모델은 기존의 모델들과 비교하여 더 나은 성능을 보여주며, 동시에 훈련 및 추론 속도도 향상되었습니다. 2. 접근 방식 2.1 사전 훈련 데이터 훈련 데이터셋은 여러 출처의 혼합물로 구성되어 있으며, 대부분의 데이터는 훈련 중에 한 번만 사용됩니다... 2023. 9. 30. 이전 1 다음 반응형