본문 바로가기

IT 트렌드

[Post] AI 에이전트의 시대: 가능성과 현실 사이

 

 

Agents on the Brain

Autonomous agents’ traction is undeniable. On the other hand, it’s unclear how useful these AI applications are today for real tasks. We unpack their potential, and help separate the hype from reality.

www.sequoiacap.com

 

핵심 요약:

  • 자율 에이전트의 급속한 성장과 관심 증가
  • 실제 업무 적용에서 효용성은 아직 검증 필요
  • 복잡한 작업의 분해와 순차적 해결 능력 보유
  • 성능, 비용, 학습 능력 등 주요 과제 존재

 

자율 에이전트의 잠재력과 당면 과제

 

자율 에이전트의 성장세는 부인할 수 없습니다. 하지만 이러한 AI 애플리케이션이 실제 작업에서 얼마나 유용한지는 아직 불분명합니다. 이러한 에이전트들의 잠재력을 분석하고, 과대 광고와 현실을 구분해보고자 합니다.

 

지난 9개월 동안 AI 혁신은 각각 우리의 가능성에 대한 인식을 확장시킨 몇 가지 개별적인 물결을 만들어냈습니다. 작년 여름에는 Stable Diffusion과 이미지 생성의 순간이 왔습니다. 그리고 11월, ChatGPT가 LLM에 대한 우리의 집단적 관심을 끌었고, 이는 GPT-4와 많은 다른 모델들의 출시와 함께 더욱 커졌습니다. LangChain이 에이전트를 대중화했고, 이제 우리는 자율 에이전트라는 그 여정의 다음 단계가 등장하는 것을 목격하고 있습니다. AutoGPT는 출시 후 한 달도 안 되어 2023년 4월 21일에 10만 개 이상의 Github 별을 받았는데, 이는 Go, Kubernetes, Node.js보다 더 많은 수치입니다. BabyAGI는 1.2만 개의 별을 받았고 수많은 프로젝트에 영감을 주었습니다.

 

자율 에이전트는 복잡한 문제를 분해하고 반복적으로 해결하며, 사용자를 대신해 행동을 취할 수 있는 언어 모델 기반 봇으로 생각할 수 있습니다. 간단한 예시로 LLM만 사용할 때, 에이전트를 사용할 때, 그리고 자율 에이전트를 사용할 때의 차이를 살펴보겠습니다:

  • LLM만으로는 특정 도시의 최고 레스토랑을 검색할 수 있습니다.
  • 에이전트를 사용하면 가장 높은 평점을 받은 레스토랑 중 예약 가능한 테이블이 있는 곳을 찾아 2인석을 예약할 수 있습니다.
  • 자율 에이전트는 내 일정과 선호도에 맞는 최적의 레스토랑을 찾아 나와 가장 친한 친구를 위해 예약할 수 있습니다. 자율 에이전트는 작업을 하위 작업으로 분해하고 각 단계 사이에 메모리를 사용하여 에이전트의 행동을 안내함으로써 이를 수행할 수 있습니다.

 

누구에게 물어보느냐에 따라, 자율 에이전트는 AGI와 함께 올 수 있는 것에 대한 희미한 빛을 보여주는 지속적인 패러다임의 변화가 될 수도 있고, 또는 많은 반복적 접근 방식 중 하나의 순간일 수도 있습니다.

 

자율 에이전트가 우리의 집단적 상상력을 사로잡은 이유를 이해하기는 쉽습니다. LLM 위에 작고 가벼운 앱으로 무엇이 가능한지 쉽게 꿈꿀 수 있게 해주기 때문입니다. 우리는 직접 에이전트를 실험해보았습니다 - Google 트렌드 스크래핑부터 종합과 요약까지 이어지는 이메일 다이제스트에서부터 복잡한 여행 일정 계획 등 다양한 것들을 탐색했습니다.

 

이러한 예시들이 매력적일 수 있지만, 현재 상태의 자율 에이전트는 아직 많은 부분에서 개선이 필요합니다. 성능, 사용자 제어, 출력 품질을 개선할 여지가 상당히 있습니다. 아직 초기 단계이며, 에이전트들은 대규모 채택을 위해 최소한 세 가지 중요한 장애물을 극복해야 합니다:

  1. 논리적 추론이 좋은 실행을 보장하지 않습니다: 원칙적으로 GPT-4는 사고 연쇄 추론과 작업을 다단계 프로세스로 분해하는 능력이 있습니다. 하지만 실제로는 에이전트가 자체 하위 작업을 실행하는 데 어려움을 겪습니다. "한 걸음 물러서서 생각하는" 시점을 알지 못해 같은 작업을 반복하는 루프에 빠지거나, 외부 피드백이 거의 없기 때문에 환각 상태의 단계에 빠져 진행이 멈출 수 있습니다.
  2. 컴퓨팅 비용: 이러한 애플리케이션의 아키텍처는 재귀적 루프에 의존하며, 이는 LLM의 많은 반복적 호출로 이어질 수 있습니다. OpenAI의 API와 같은 도구를 사용할 경우 현재는 호출당 비용이 상대적으로 낮지만(단, API 한도에 걸릴 수 있습니다!), 자체 모델을 사용할 경우 비용 방정식은 매우 다를 수 있습니다.
  3. 학습: 자율 에이전트는 일회성으로 생성되고 재사용되지 않기 때문에, 프롬프트나 이전 시도로부터 학습하지 못하며, 실수로부터도 많이 배우지 못합니다. 하지만 에이전트의 지속성을 돕는 서비스들이 등장하고 있어, 이들을 관리하는 것이 더 쉬워질 것입니다.

 

이러한 과제들을 해결할 수 있다면, 우리는 "에이전트 대 에이전트" 상호작용의 미래를 상상해볼 수 있습니다. 일반적인 작업을 위한 전문화된 에이전트들이 만들어질 수 있습니다. 모든 작업마다 새로운 에이전트를 생성하는 대신, 일부 단계를 "아웃소싱"하고 출력당 비용을 지불하는 사전 훈련된 에이전트에 의존하여, 그 출력을 다음 단계의 입력으로 활용할 수 있습니다. 다시 말해, 당신의 AI가 다른 AI를 고용하거나 아웃소싱할 수 있습니다. "핵심" 작업은 서로 다른 에이전트들이 담당하고, 새로운 도구 계층이 전체 프로세스를 연결하는 "접착제"로 등장할 수 있습니다.

 

그렇다면 이를 달성하기 위해 무엇이 필요할까요? 현재 구현은 제한된 컨텍스트 윈도우를 가진 단기 에이전트들이 사용하는 GPT-4 API에 의존합니다. 완전한 잠재력에 도달하기 위해, 차세대 에이전트는 다음과 같은 능력이 필요할 것입니다:

  • 컴퓨팅 인식: 목적함수로서 자원 사용을 최소화
  • 데이터 인식: 작업에 적합한 모델이나 데이터 소스를 찾고 연결
  • 에이전트 인식: 에이전트 생태계 내에서 다른 에이전트들을 찾고, 재사용하고, 소통
  • 안전성 인식: 출력 검증과 코드 샌드박싱은 첫 단계일 뿐, 악용 방지를 위한 더 심각한 제어가 필요
  • 사용자 인식: 성능을 최적화하기 위해 사용자 행동과 선호도로부터 학습

우리는 자율 에이전트가 AI 애플리케이션 환경의 흥미로운 부분이 될 수 있다고 생각하며, 기술은 이제 막 좋아지기 시작했습니다. 에이전트의 진화는 어떤 모습일까요? 여러분은 무엇을 만들고 계신가요?