AI 에이전트는 대규모 언어 모델(LLM)을 중심으로 구축된 소프트웨어 시스템으로, 한 번에 하나의 프롬프트에만 답하는 것이 아니라 스스로 목표를 추구할 수 있습니다. 입력을 관찰하고, 다음에 무엇을 해야 할지 추론하며, API 호출, 웹 검색, 코드 실행, 데이터베이스 쓰기와 같은 행동을 취한 뒤, 결과를 평가하고 다음 단계를 결정합니다. 이러한 인지-추론-행동의 반복 루프가 일반적인 챗봇과 에이전트를 구별하는 핵심입니다.
AI 에이전트의 작동 원리
대부분의 AI 에이전트는 세 가지 요소를 결합합니다. 추론의 핵심이 되는 파운데이션 모델, 모델이 호출할 수 있는 도구 세트, 그리고 작업이 완료될 때까지 모델이 계속 작동하도록 하는 제어 루프입니다. 목표가 주어지면 LLM은 일반적으로 계획을 생성하고, 도구를 선택하고, 도구의 출력을 관찰한 뒤, 계획을 업데이트합니다. 이 패턴은 종종 추론(Reasoning)과 행동(Acting)의 합성어인 ReAct라고 불립니다.
예를 들어, "이번 주 고객 불만 사항을 요약하라"는 지시를 받은 에이전트는 최근 파일 목록을 확인하고, 각 파일을 읽고, 언어 모델 호출로 주제를 추출한 뒤, 문서에 보고서를 작성할 수 있으며, 이 모든 과정은 사람이 각 단계를 선택하지 않아도 이루어집니다. 많은 에이전트는 단기 또는 장기 메모리를 유지하여 여러 대화에 걸쳐 맥락을 유지하고 오류로부터 복구합니다. LangGraph, OpenAI Agents SDK, Anthropic의 도구 사용 API 같은 프레임워크는 이러한 기본 요소를 개발자에게 제공합니다.
왜 중요한가
AI 에이전트는 언어 모델을 수동적 응답자에서 실제 워크플로우를 완수할 수 있는 시스템으로 전환시키기 때문에, "에이전트형 AI(agentic AI)"라는 용어가 기업용 소프트웨어 전반에 빠르게 확산되었습니다. 에이전트는 리서치 지원, 풀 리퀘스트를 여는 코딩 코파일럿, 계정 정보를 조회하는 고객 지원 봇, 일정 관리나 데이터 입력 같은 운영 업무에 사용됩니다. 에이전트는 행동을 연결하고 도구를 사용할 수 있기 때문에 잘못된 도구 호출, 무한 루프, 신뢰할 수 없는 콘텐츠로부터의 프롬프트 인젝션과 같은 새로운 방식으로 실패할 수도 있어, 일반적으로 가드레일, 사람의 검토, 제한된 권한과 함께 배포됩니다.
주요 유형
- 단일 단계 도구 사용자: 질문에 답하기 위해 한두 번의 도구 호출을 수행하는 모델. 예를 들어 웹을 한 번 검색하는 챗봇이 있습니다.
- 다중 단계 작업 에이전트: 연구 에이전트가 읽기, 요약, 보고서 작성을 하듯 여러 작업을 순차적으로 계획하고 실행하는 시스템입니다.
- 다중 에이전트 시스템: 특화된 에이전트들이 서로 작업을 인계하는 구조. 예를 들어 플래너, 코더, 리뷰어가 소프트웨어 작업에 협업하는 경우가 있습니다.
- 컴퓨터 사용 및 휴머노이드 에이전트: 브라우저를 구동하거나, 데스크톱을 제어하거나, 목표를 UI 또는 물리적 행동으로 변환하여 로봇을 작동시키는 에이전트입니다.
파운데이션 모델이 구조화된 추론과 도구 사용에서 점점 더 나아짐에 따라, AI 에이전트는 데모에서 엔드투엔드 업무를 처리하는 프로덕션 시스템으로 이동하고 있지만, 안정성, 평가, 안전성은 여전히 어려운 과제로 남아 있습니다.