Summary: 2025년 10월 현재 AI 에이전트 분야는 정적인 대형 언어 모델(LLM)을 넘어 스스로 적응하고 진화하는 자가‑진화 에이전트, 여러 에이전트가 협업하는 다중 에이전트 프레임워크, 실제 사용자 인터페이스와 상호작용하는 컴퓨터‑사용 모델 등으로 빠르게 발전하고 있다. 본 뉴스레터는 최신 SOTA 논문과 업계 동향을 분석하고, 기업과 연구자가 주목해야 할 핵심 포인트를 정리한다.
1. 최신 SOTA 논문 리뷰
ARE: Scaling Up Agent Environments and Evaluations (2025)
- 배경·목적: 대규모 언어 모델과 강화학습 기반 에이전트의 성능은 개선되고 있으나, 평가 환경과 벤치마크가 정적이고 비현실적이라는 한계가 있었다. 기존 베치마크는 단일 검색·실행 요청이나 이상적으로 제어된 시나리오에 초점이 맞춰져 있어, 실제 응용에서 요구되는 시간 제한, 동적 이벤트, 에이전트 간 협력 같은 요소를 다루지 못했다. 또한 가변성이 높은 웹 환경은 재현성이 낮아 대규모 실험이 어려웠고, 모형 개발과 실제 배포 간의 격차도 컸다. 이에 메타 AI 팀은 Meta Agents Research Environments (ARE)를 제안해 다양한 환경을 손쉽게 구성하고, 실제 앱과 통합하며, 에이전트의 “행동 오케스트레이션”을 실행·평가할 수 있도록 하는 연구 플랫폼을 설계했다. ARE 위에 새로운 종합 벤치마크 Gaia2를 구축해 모델의 일반적 에이전트 능력을 측정하려는 것이 목적이다.
- 핵심 내용
- ARE 플랫폼: ARE는 환경과 시나리오를 생성하는 간단한 추상화를 제공한다. 환경은 각각 규칙, 도구, 콘텐츠, 검증기를 갖춘 앱들의 모음이며, 실제 앱(MCP를 통한 통합 가능)이나 합성 앱을 모두 지원한다. ARE는 시퀀셜 환경에 머물지 않고 비동기 상호작용을 기본으로 도입하여 에이전트가 환경 변화와 시간을 고려해 작업하도록 설계한다.
- Gaia2 벤치마크: Gaia2는 모바일 환경에서 실행되는 1 120개의 시나리오로 구성되어 있으며, 동적 이벤트, 시간 제약, 에이전트 간 협업 등을 요구한다. 각 시나리오는 특정 능력(검색, 실행, 모호성 처리, 적응, 협업 등)을 평가하며, Pass @ 1 점수를 통해 성능을 측정한다.
- 평가 결과와 인사이트: 실험에서 GPT‑5, Claude‑4 Sonnet, Gemini 2.5‑Pro 등 최신 모델들은 개방형 모델보다 높은 성능을 보였지만, 모든 모델의 성능 곡선이 예산 증가에 따라 빠르게 포화된다는 것이 나타났다. 이는 강한 추론 능력이 높은 비용과 긴 실행 시간이라는 대가를 요구함을 의미하며, 효율성과 추론 능력 사이의 트레이드오프가 존재함을 보여준다.
- 검증기와 UI: ARE는 루브릭 기반 검증기를 제공해 각 시나리오에서 필요한 최소한의 “쓰기(writing) 동작”과 일치하는지 확인한다. 또한 웹 기반 GUI를 제공해 시나리오 이벤트 흐름, 에이전트 로그, 실행 과정을 시각화하고, 개발자가 시나리오를 쉽게 수정·재생할 수 있도록 한다
- 의의: ARE와 Gaia2는 에이전트 평가 패러다임을 “정적 ↦ 동적·비동기”로 전환하였다. 시간 흐름, 동시성, 돌발 이벤트 등 실제 작업에 가까운 조건에서 모델을 평가함으로써 기존 벤치마크에서 보이지 않던 실패 모드를 드러냈다. 또한 환경·시나리오·검증 로직을 단일 플랫폼에서 관리하도록 해 새로운 벤치마크 개발과 재현성을 크게 향상시키며, 개발·훈련·배포 간 일관성을 확보했다. 연구팀은 Gaia2 확장이 용이한 ARE를 통해 여러 도메인에서 신속하게 새 벤치마크를 구축할 수 있다고 강조한다. 결과적으로 ARE는 차세대 에이전트 연구의 공통 기반을 제공하고, 새로운 아키텍처·적응형 연산 전략을 촉진하는 장으로 평가된다.

- ARE 시나리오의 DAG(Directed Acyclic Graph) 구조
ARE에서 각 시나리오는 이벤트를 노드로 하는 DAG로 표현된다. 시나리오를 구성하는 다양한 이벤트(Env·Conditional·Validation·Oracle events)가 노드로 배치되고, 선행 이벤트가 완료되어야 후행 이벤트가 실행될 수 있다. 예를 들어 e4는 e2와 e3가 모두 끝난 후에만 실행되며, 여러 브랜치가 병렬로 진행될 수 있어 독립적인 이벤트를 동시에 모델링할 수 있다.
- 이벤트 종류:
- Environment events는 특정 시간이나 조건에 따라 외부 변화(예: 친구에게서 오는 메시지)를 시뮬레이션한다.
- Conditional events는 조건을 주기적으로 확인하고 만족될 때만 완료되어 다음 이벤트를 트리거한다.
- Validation events는 시나리오의 검증을 위해 일정 기한 내에 요구사항을 만족하는지 확인하며, 실패하면 시나리오를 종료한다.
- Oracle events는 정답(ground truth) 동작으로, Verifier가 에이전트의 행동과 비교하는 기준이 된다.
- 시나리오 실행과 의존성: 시나리오는 send_message_to_agent 이벤트로 시작해 에이전트를 깨우고, DAG에 따라 이벤트가 진행된다. 환경은 비동기로 동작하며 에이전트가 정보를 처리하는 동안에도 시간은 흘러간다. 각 턴의 마지막에 send_message_to_user가 있으며, 다음 턴은 사용자의 새로운 지시나 환경 이벤트로 다시 시작된다.
- DAG 구축과 검증: 시나리오 제작자는 그래프 에디터를 사용해 DAG를 설계하며, 각 노드에 수행할 도구 호출과 부모 노드, 타이밍을 지정한다. ARE는 노드에 부모가 없는 경우나 시간 제약이 모순되는 경우 등 구조적 오류를 자동으로 탐지하여 안내한다. 또한 시나리오의 일관성을 위해 몇 가지 가드레일을 둔다. 예를 들면 send_message_to_agent가 루트 노드가 되어야 하고 DAG는 완전히 연결돼 있어야 하며, 한 브랜치에만 send_message_to_agent 또는 send_message_to_user 이벤트가 포함되어야 하고, 모든 턴은 send_message_to_user로 끝나야 한다. Verifier는 이 DAG를 위상정렬(topological order)하여 에이전트의 쓰기 동작이 오라클 동작과 동일한 순서와 내용인지, 의존성을 지켰는지, 시간 제약을 만족하는지를 확인한다.
A Survey of Self‑Evolving Agents: On Path to Artificial Super Intelligence (2025)
- 배경·목적: 대형 언어 모델은 뛰어난 성능을 보이지만 내부 파라미터를 실시간으로 적응시키지 못하는 정적인 한계를 갖는다. 연구팀은 데이터와 환경 변화에 따라 스스로 학습하고 진화하는 에이전트를 만드는 방향으로 관심이 이동하고 있음을 지적한다.
- 핵심 내용: 논문은 무엇을 진화시킬 것인가(모델·메모리·도구·아키텍처), 언제 진화시킬 것인가(테스트 내/테스트 간), 어떻게 진화시킬 것인가(보상 신호, 텍스트 피드백, 단일 vs 다중 에이전트)라는 세 축을 중심으로 자가‑진화 에이전트 연구를 체계적으로 분석한다.
- 에이전트 구성 요소별 진화 메커니즘, 알고리즘 및 아키텍처 설계를 비교하고, 자가‑진화 에이전트에 특화된 벤치마크 및 평가 지표를 제안한다.
- 코딩·교육·헬스케어 등 다양한 응용 사례를 소개하고, 안전성·확장성·공진화 동역학과 같은 도전 과제를 정리한다.
- 의의: 자가‑진화 에이전트는 인간 수준을 넘어서는 인공 초지능(ASI) 구현을 위한 로드맵을 제공하며, 정적인 LLM을 진화 가능한 시스템으로 확장하기 위한 기초 자료를 제공한다.
AgentMaster: A Multi‑Agent Conversational Framework (2025)
- 문제의식: 기존 다중 에이전트 시스템(MAS)은 에이전트 간의 원활한 통신·조정과 이질적인 도구/자원과의 상호작용에서 어려움을 겪는다.
- 제안: AgentMaster는 Google의 Agent‑to‑Agent(A2A) 프로토콜과 Anthropic의 Model Context Protocol(MCP)을 통합해 동적 조정과 유연한 통신을 지원하는 모듈형 MAS 프레임워크를 제안한다.
- 통합 대화형 인터페이스를 통해 사용자는 자연어로 시스템과 상호작용하고, 정보 검색·질문 응답·이미지 분석 등 멀티모달 쿼리에 대응할 수 있다.
- 에이전트는 사용자 쿼리를 전문화된 워크플로우로 분해해 자동화된 작업 할당과 동적 라우팅을 수행한다.
- 실험에서 BERTScore F1 96.3%, LLM‑as‑a‑Judge G‑Eval 87.1%라는 높은 성능을 기록해 도메인 특화 응답의 우수성을 보여준다.
- 의의: A2A와 MCP를 통합한 첫 사례로, 여러 에이전트가 협력해 정확한 정보 검색과 분석을 수행하는 대화형 MAS의 가능성을 입증했다.
Gemini 2.5 Computer Use Model – TAI #174 및 Google 공식 발표 (2025)
- 연구 동향: Towards AI의 분석에 따르면, Google DeepMind가 공개한 Gemini 2.5 Computer Use 모델은 웹 브라우저를 비롯한 사용자 인터페이스를 실제로 조작하는 에이전트로, 웹과 모바일 제어 벤치마크에서 79.9 % 정확도로 기존 모델을 상회했다. 그러나 실제 서비스에서는 여전히 비표준 레이아웃과 봇 차단 장치 때문에 안정적인 사용이 어렵다고 평가한다.
- 모델 동작: Google DeepMind의 공식 발표에 따르면, 이 모델은 Gemini 2.5 Pro 기반으로 개발되었으며 스크린샷과 행동 이력을 입력으로 받아 UI 동작(클릭·입력·스크롤 등)을 함수 호출 형태로 출력하는 루프 구조를 갖는다.
- computer_use 도구를 통해 브라우저에서 폼 작성·드롭다운 선택·로그인 후 작업을 수행할 수 있고, 각 행동 후 새로운 스크린샷을 받아 반복한다.
- 모델은 WebVoyager, Online‑Mind2Web, AndroidWorld 등 여러 벤치마크에서 경쟁 모델보다 높은 정확도와 낮은 지연 시간을 기록했다.
- 현재는 브라우저 및 모바일 UI에 최적화되어 있으며 데스크톱 OS 제어는 지원하지 않는다.
- 의의: Gemini 2.5 Computer Use 모델은 복잡한 웹 인터페이스 작업을 자동화할 수 있는 잠재력을 보여주지만, 인증·봇 차단 등 적대적인 웹 환경과 데이터 접근 제약을 해결해야 생산 환경에서 활용될 수 있다는 점이 지적된다.

2. 기술 트렌드 & 시장 동향
Top 9 AI 에이전트 프레임워크 (Shakudo, Oct 2025)
2025년 10월 기준 가장 주목받는 AI 에이전트 프레임워크는 아래와 같다. 각 프레임워크의 특징과 추천 사용 시나리오는 다음과 같다.
| 순위 | 프레임워크특징 및 사용 사례참고 |
| 1. LangChain | LLM 기반 애플리케이션의 워크플로우를 단순화하는 모듈형 도구로, 다양한 API·데이터베이스·외부 도구와 쉽게 통합된다. 대화형 비서, 문서 분석, 추천 시스템 등에 적합하나 외부 의존성과 리소스 요구가 크다. |
| 2. AgentFlow | Shakudo OS 위에서 돌아가는 생산용 플랫폼. LangChain·CrewAI·AutoGen을 저코드 캔버스로 묶어 워크플로우를 시각적으로 설계하고 자체 클러스터에 배포할 수 있다. 장기간 실행되거나 계층적 에이전트에 적합하며, 관찰성(토큰 사용량·추적·비용)을 제공한다. |
| 3. AutoGen | Microsoft가 개발한 프레임워크로, LLM을 활용해 맞춤형 에이전트와 코드를 자동 생성한다. 자동화된 에이전트 생성이 강점이며, 표준화된 워크플로우에 적합하다. |
| 4. Semantic Kernel | 전통적 소프트웨어에 AI 기능을 통합하는 Microsoft 프레임워크. Python·C#·Java를 지원하고, 자연어 이해·의사결정·자동화를 제공하며 엔터프라이즈 보안과 워크플로우 오케스트레이션에 강점이 있다. |
| 5. Atomic Agents | 분산 에이전트 시스템을 쉽게 구축할 수 있는 오픈소스 라이브러리. 분산 에이전트 수정과 커스터마이징에 유리하지만, 에이전트 기반 모델링을 이해해야 하므로 초보자에게는 진입 장벽이 높다. |
| 6. CrewAI | 협력과 실시간 의사결정을 중시하는 다중 에이전트 프레임워크. 여러 에이전트가 상호작용하며 최적의 행동을 도출하도록 설계되어 협업이 필요한 시스템에 적합하다. 초기 단계라 커뮤니티 지원이 적다는 한계가 있다. |
| 7. RASA | 오픈소스 대화형 AI 프레임워크. 의도 인식·컨텍스트 관리·대화 흐름 제어에 강하며, 기계학습과 규칙 기반 방식을 모두 지원한다. 학습 곡선과 자원 소모가 커서 충분한 기술 역량을 가진 기업에 추천된다. |
| 8. Transformers Agents | Hugging Face가 출시한 프레임워크로 다양한 Transformer 모델을 조합하여 지능형 에이전트를 구성할 수 있다. 모델 선택과 미세조정이 유연해 고급 NLP/생성형 AI 애플리케이션에 적합하다. |
| 9. Langflow | 파이썬 기반의 로우코드 프레임워크로 RAG 및 다중 에이전트 워크플로우를 손쉽게 구축할 수 있다. 시각적 인터페이스를 제공하지만 고난도 커스터마이징에는 한계가 있다. |
딜로이트·AI Matters 레포트 – 2025년 AI 10대 핵심 트렌드
AI Matters가 소개한 딜로이트의 2025년 AI 트렌드 보고서는 AI가 실험실에서 산업 현장으로 이동한 전환점을 강조한다. 핵심 트렌드는 다음과 같다:
- 물리적 AI (휴머노이드 로봇) – 엔비디아 CEO 젠슨 황이 CES 2025에서 “AI의 종착점은 휴머노이드 로봇”이라고 강조했고, 스마트 제조·물류·헬스케어 등에서 로봇 상용화가 가속화되고 있다.
- 에이전틱 AI – 인간 지시 없이 스스로 계획을 세우고 복잡한 작업을 완수하는 소프트웨어 에이전트가 생산성을 크게 향상시키며, 인간 일자리 대체·사이버 보안 위협 등 도전 과제도 제기된다.
- 다중 AI 에이전트 – 도메인 전문성을 가진 여러 에이전트가 협업해 문제를 해결하며, 유연한 사고와 창발적 협업을 통해 금융·마케팅 등 다양한 분야에서 적용되고 있다.
- 온디바이스 AI – 2031년까지 연평균 27.95 % 성장해 1,181억 달러 시장이 될 전망이다. 클라우드 의존 없이 실시간 처리·프라이버시 강화·비용 효율성 등을 제공한다.
- AI 거버넌스 – 투명성·공정성·안전성·책임성을 갖춘 신뢰할 수 있는 AI 프레임워크가 기업 경쟁력의 핵심으로 부상하며, 90 % 이상의 기업이 거버넌스 개선 필요성을 인식한다.
- AI 시티 – AI가 교통·전력·환경 관리 등 도시 서비스 혁신을 이끄는 스마트 시티 구축을 가속화한다.
- AI 사이버보안 – 생성형 AI 도입으로 새로운 보안 위협이 등장해 기업들은 악성 행위자에 대비한 전략을 마련해야 한다.
- AI 인재 개발 – 반복 작업을 자동화하고 인간의 창의력·판단력을 강화하는 협업 모델을 구축하기 위해 AI 활용 학습 환경과 맞춤형 코칭이 필요하다.
- AI 데이터센터 – AI 데이터센터의 전력 수요가 폭증하며 냉각 기술·저전력 반도체·전력 인프라 확충 등이 요구된다.
- AI 제조 – 완성차 제조 전 과정에 AI를 적용하여 생산성·품질·재고 관리 등에서 큰 개선을 달성하고, 개별 AI 사용 사례를 유기적으로 연결하는 ‘String of Pearls’ 전략이 제시된다.

앞으로의 과제는 에이전트의 자율성과 안전성 사이의 균형을 잡고, 효율적인 협업과 지속적 학습이 가능한 시스템을 설계하는 것이다. 본 뉴스레터가 연구자와 엔지니어가 최신 동향을 이해하고 다음 단계의 연구·개발을 준비하는 데 도움이 되길 바란다.