AI/LLM

Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI

Tech코알라 2025. 11. 12. 18:28

출처 : https://www.aui.io/resources/beyond-generative-ai/

 

Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI - AUI

AUI Introducing Apollo-1: The Neuro-Symbolic Foundation Model for Task-Oriented Dialogue

www.aui.io

3년 동안 AI 업계는 하나의 신화에 사로잡혀 있었습니다. "트랜스포머를 충분히 확장하면 범용 인공지능을 얻을 수 있다"는 믿음입니다. 하지만 지능은 그런 식으로 작동한 적이 없습니다. 새는 비행을 마스터했고, 돌고래는 소나를 진화시켰습니다. 각자는 자신만의 영역을 찾았고, 그 영역 내에서 일반화합니다. 어떤 것도 모든 것을 하지 않습니다. 

 

사실 저희 회사에서도 마찬가지였습니다. 이커머스 지향 LLM을 만든다고 하였지만, 결과는 대부분의 질 좋지 않는 데이터 문제 그리고 이커머스를 잘하게 만들면 떨어지는 범용 성능 등 여러 문제를 발견하는데 그쳤습니다. 

 

Augmented Intelligence (AUI)가 발표한 Apollo-1은 이러한 통찰을 바탕으로 태스크 지향 대화형 AI를 위한 완전히 새로운 아키텍처를 제시합니다. ChatGPT나 Claude가 개방형 대화에서 뛰어난 것처럼, Apollo-1은 실제 비즈니스 작업을 수행하는 대화에 특화되어 있습니다.

태스크 지향 대화형 AI란?

태스크 지향 대화형 AI는 실제 세계의 행동으로 이어지는 모든 상호작용을 담당합니다:

  • ✈️ 항공권 예약
  • 💳 결제 처리
  • 🏥 보험 청구 처리
  • 📈 거래 실행
  • 📅 일정 관리

경제의 모든 예약, 결제, 청구는 이러한 대화가 안정적으로 작동하는지에 달려있습니다. 그러나 3년간 수십억 달러의 투자에도 불구하고, 태스크 지향 대화형 AI는 여전히 대부분 배포되지 않은 상태입니다.

왜 LLM 에이전트로는 부족한가?

태스크 지향 대화형 AI가 성공하려면 세 가지 능력을 동시에 제공해야 합니다:

1. 자연스러운 대화 (Natural Dialogue)

  • 사용자 의도를 이해하고 유연하게 대응

2. 결정론적 보장 (Deterministic Guarantees)

  • "200달러 이상 환불 시 항상 신원 확인"
  • "비즈니스 클래스 업그레이드를 프리미엄 이코노미보다 항상 먼저 제안"
  • "재고 부족 시 유사 상품 추천" (패션 리테일러) vs "재고 부족 시 사전 주문 링크 표시" (럭셔리 브랜드)

3. 외부 시스템과의 안정적 통합

  • 실제 좌석 예약, 카드 결제, 티켓 발행

LLM 에이전트의 한계:

  • ✅ 첫 번째 능력: 뛰어남
  • ⚠️ 두 번째 능력: 어려움
  • ❌ 세 번째 능력: 해결 방법 없음

이것은 실패가 아니라 아키텍처의 문제입니다. 트랜스포머는 통계적 그럴듯함이 성공과 동일한 개방형 대화를 위해 설계되었습니다. 태스크 지향 대화형 AI는 다른 것을 요구합니다.

"보통"과 "항상"의 차이

LLM 에이전트에게 "결제 전에 항상 보험을 제안하라"고 요청하면, 대부분의 경우 그렇게 할 것입니다. Apollo-1의 System Prompt에 그 규칙을 설정하면, 확실하게(with certainty) 항상 그렇게 합니다.

이 구분이 바로 대규모 투자에도 불구하고 태스크 지향 대화형 AI가 엔터프라이즈 규모로 배포되지 않은 이유입니다.

Apollo-1의 핵심: 신경-상징 추론 (Neuro-Symbolic Reasoning)

문제의 핵심 통찰

2017년부터 AUI는 6만 명의 인간 에이전트를 통해 수백만 건의 실제 태스크 지향 대화를 해결하고 구조화된 데이터로 인코딩했습니다. 핵심 통찰은 데이터의 규모가 아니라 무엇을 표현해야 하는가였습니다.

태스크 지향 대화형 AI는 두 종류의 지식이 함께 작동해야 합니다:

1. 절차적 지식 (Procedural Knowledge)

  • "먼저 날짜를 확인, 그 다음 좌석 선호도"
  • "만약 X라면, Y를 해라"
  • 작업 흐름, 정책, 비즈니스 로직

2. 설명적 지식 (Descriptive Knowledge)

  • "비즈니스 클래스는 프리미엄 이코노미보다 비싸다"
  • 일반 상식, 제품 정보, 도메인 지식

문제: 다중 턴 대화 전사를 트랜스포머로 학습시키는 것은 대화 스타일을 포착할 수 있지만, 태스크 지향 상호작용을 올바르게 처리하는 방법을 가르치지 못합니다. 데이터셋은 1차원적이고 상태가 없습니다. 명시적 상태 없이 모델이 절차적 지식을 어떻게 학습할 수 있을까요?

해결책: 상징적 언어 (Symbolic Language)

AUI는 절차적 역할과 설명적 사실을 인코딩하는 상징적 언어를 구축했습니다. 이는 모델에게 추론할 수 있는 타입이 지정된 상징적 상태를 제공합니다.

또한 다양한 사용 사례와 도메인(신발 판매, 항공권 예약, 대출 처리)에서 태스크 지향 대화가 보편적인 절차적 패턴을 따른다는 것을 발견했습니다:

  • 파라미터 추출
  • 제약 검증
  • 의도 식별
  • 정책 시행
  • 상태 의존적 분기

신경-상징 추론기 (Neuro-Symbolic Reasoner)

실제 계산을 위해 AUI는 다음 토큰을 예측하는 대신 현재 상징적 상태에서 다음 행동을 계산하는 인지 코어인 신경-상징 추론기를 개발했습니다.

  • 신경 모듈: 상징적 언어와의 번역 담당
  • 상징 모듈: 명시적 상태 유지, 보장 시행, 구조화된 도구 호출

상징적 언어와 추론기가 함께 Apollo-1을 형성합니다: 태스크 지향 대화형 AI를 위한 도메인 불가지론적 기반 모델.

Apollo-1의 아키텍처

구조: 인코더 – 상태 기반 추론 루프 – 디코더

Apollo-1의 신경-상징 설계는 컨텍스트를 이해하는 신경 모듈과 구조를 시행하는 상징 모듈을 통합합니다.

상징적 상태는 다음 두 가지를 표현합니다:

  1. 절차적 진행 상황 (어떤 상태에 있는가)
  2. 설명적 사실 (무엇을 알고 있는가)
  • 신경 컴포넌트: 언어 해석 및 이해 강화
  • 상징 컴포넌트: 안정적인 실행 보장

핵심: 인식은 확률적이지만, 동일한 상태가 주어지면 추론기는 항상 동일한 결정을 내립니다. 이는 태스크 지향 대화형 AI가 요구하는 행동 보장을 제공하고 태스크 실행을 재현 가능하고, 감사 가능하며, 조종 가능하게 만듭니다.

상징적 추론 엔진

수백만 건의 다중 턴 태스크 지향 대화를 해결하고 인코딩한 경험에서 학습한 절차적 논리를 기반으로 하는 결정론적, 규칙 기반 엔진입니다.

System Prompt: 행동 계약 (Behavioral Contract)

Apollo-1은 에이전트로 사용되는 것이 아니라, 모든 조직이 자체 태스크 지향 대화 에이전트를 만들 수 있도록 설계된 최초의 기반 모델입니다.

System Prompt는 단순한 구성이 아닙니다. 이것은 행동 계약입니다.

당신은 관심 있는 상황에서 에이전트가 어떻게 행동해야 하는지 정확하게 정의합니다. Apollo-1은 해당 행동이 실행될 것을 보장합니다.

System Prompt를 통해 할 수 있는 것

1. 도구 정의 (Tool Definitions)

상징적 슬롯은 다음을 정밀하게 선언합니다:

  • 의도 (Intents)
  • 파라미터 (Parameters)
  • 제약 조건 (Constraints)
  • 정책 (Policies)
  • 도구 사양 (Tool Specifications)
    • 필수 필드
    • 사전/사후 조건
    • 명확한 실패 상태

2. 고급 제어

  • 상태 의존 규칙: "환불 > $200이면 신원 확인 필요"
  • 정교한 재시도 및 폴백 로직
  • 명확한 에스컬레이션 기준
  • 명시적 종료 상태

3. 도구 설정 (Tool Settings)

  • 허용되는 엔드포인트
  • 검색 또는 RAG를 관리하는 도메인 필터
  • 채워질 수 있는 인수
  • API 응답을 상징적 상태로 매핑하는 방법

실제 행동 확실성

  • 🍔 음식 주문 앱: "알레르기가 언급되면 항상 레스토랑에 알림" → 항상 실행
  • 📞 통신 제공업체: "세 번째 결제 실패 시도는 인간 에스컬레이션을 트리거" → 예외 없이 실행
  • 🏥 보험 회사: "$10,000 이상 청구는 두 번의 승인 필요" → 매번 실행

보통이 아닙니다. 아마도가 아닙니다. 확실하게 실행됩니다.

배포: 몇 개월에서 몇 시간으로

플레이그라운드에서 프로덕션까지, Apollo-1 에이전트는 몇 달이 아닌 몇 시간 만에 배포됩니다.

  • 항공사, 보험, 리테일, 헬스케어
  • 동일한 기반 모델, 다른 System Prompt
  • 지속적인 미세 조정 및 System Prompt 최적화로 복합적인 이득 제공

대화형 AI는 항상 두 가지 문제였습니다

1. 개방형 대화 (Open-Ended Conversation)

트랜스포머가 완벽하게 해결했습니다.

  • ChatGPT: 글쓰기와 코딩
  • Claude: 설명과 분석
  • Gemini: 창작과 탐험

목표가 창의적이거나, 정보 제공적이거나, 탐색적 대화일 때, 통계적 그럴듯함은 정확히 맞습니다. 그럴듯한 변화가 가치를 창출합니다.

2. 태스크 지향 대화 (Task-Oriented Conversation)

Apollo-1이 제공하는 다른 아키텍처가 필요합니다.

목표가 숙박 예약, 결제 처리, 청구 관리일 때, 정의된 정책, 절차, 비즈니스 로직이 지정된 대로 정확히 실행되면서도 모든 시나리오에서 자연스럽고 유창한 대화를 유지해야 합니다.

실제 돈, 실제 약속, 실제 고객 관계가 걸려 있을 때 확률은 충분하지 않습니다.

Apollo-1에서는:

  • 중요한 곳에 규칙과 가이드라인을 정의
  • 모델은 그 경계 내에서 지능적으로 응답
  • 전통적인 워크플로우처럼 사전 정의되지 않은 케이스에서 "막히지" 않음
  • 사용자와 System Prompt 모두를 추론하여 필요할 때 구조를 보장하고 필요할 때 유연성을 제공

의도적인 트레이드오프: Apollo-1이 하지 않는 것

Apollo-1의 아키텍처는 의도적인 트레이드오프를 만듭니다. 태스크 지향 대화에서 행동 확실성을 최적화함으로써, 다른 도메인에서 의도적으로 경쟁하지 않는 모델을 만들었습니다.

1. 개방형 창의적 작업

  • 창의적 글쓰기, 브레인스토밍, 탐색적 대화에는 설계되지 않음
  • 마케팅 카피 작성, 스토리 아이디어 생성 → 트랜스포머가 우수

2. 코드 생성 및 소프트웨어 개발

  • 태스크 지향 워크플로우에서 코드 실행 도구와 통합 가능
  • 최첨단 코드 생성은 제공하지 않음
  • 프로그래밍 패턴 합성, 함수 자동 완성 → 트랜스포머가 우수

3. 비대화형 애플리케이션

Apollo-1은 대화형 AI 기반 모델입니다. 다음을 위해 설계되지 않았습니다:

  • 이미지 생성 또는 비디오 합성
  • 시계열 예측 또는 추천 시스템
  • 문서 요약 또는 감성 분석

4. 저위험, 고변동성 시나리오

  • 고객 참여 캠페인, 적응형 응답이 있는 교육 튜터링, 엔터테인먼트 챗봇
  • 확률적 변화가 결정론적 확실성보다 선호되는 경우

트레이드오프가 핵심입니다. 이것들은 약점이 아니라 신뢰성의 대가입니다. 상태 기반 태스크 지향 추론에 특화함으로써, Apollo-1은 가장 중요한 곳에서 차원이 다른 개선을 제공합니다: 실제 세계의 행동을 초래하고 실제 세계의 결과를 가져오는 대화.

성능 벤치마크: 차원이 다른 개선

Apollo-1은 이미 Fortune 500 조직의 프로덕션 프로그램에 배포되어 있습니다. 기존 시스템(수년간 수천 명의 팀으로 구축)에 대해 Apollo-1을 테스트하는 조직들은 동일한 패턴을 보고 있습니다: 태스크 완료율에서 차원이 다른 개선.

벤치마크 결과

테스트 / 벤치마크Apollo-1최고 LLM 에이전트개선율

τ-Bench-Airline (가장 어려운 공개 벤치마크) 90.8–92.5% Claude-4: 60% +51%
Google Flights (111개 실제 예약 대화) 83% Gemini 2.5-Flash: 22% +277%
Amazon Retail (120개 실제 쇼핑 대화) 90.8% Rufus: 16.7% +444%

실제 적용 사례

경제 활동을 주도하는 모든 대화가 안정적으로 자동화 가능해집니다:

리테일 & 이커머스

  • 제품 발견 및 추천
  • 주문 처리 및 추적
  • 반품 및 환불 관리

여행 & 접객업

  • 항공편/호텔/렌터카 예약
  • 예약 수정 및 취소
  • 로열티 프로그램 관리

금융 서비스

  • 계좌 관리 및 거래
  • 대출 신청 처리
  • 사기 탐지 및 분쟁 해결

헬스케어

  • 약속 예약 및 리마인더
  • 처방전 리필 요청
  • 보험 청구 처리

통신 & 유틸리티

  • 서비스 활성화 및 업그레이드
  • 청구 문의 및 결제
  • 기술 문제 해결 및 티켓팅

실행 보장으로 얻는 신뢰

엔터프라이즈는 마침내 고객 상호작용을 대화 에이전트에 맡길 수 있습니다. 왜냐하면 다음을 확신하기 때문입니다:

  • ✅ 정책이 시행됩니다
  • ✅ 규정 준수 요구 사항이 충족됩니다
  • ✅ 사용자 지정 비즈니스 로직이 실행됩니다
  • ✅ 외부 시스템이 안정적으로 호출됩니다
  • ✅ 실패가 우아하게 처리됩니다

개방형 대화는 생산성을 향상시키지만, 태스크 지향 대화형 AI는 생산성 그 자체입니다. 모든 거래, 모든 예약, 모든 청구; 이것들이 경제를 운영하는 대화입니다. 이제 자동으로 실행될 수 있습니다.

통합 및 배포

유연한 통합

Apollo-1의 모듈식 아키텍처는:

  • 기존 생성형 AI 워크플로우와 원활하게 통합
  • 모든 API 또는 외부 시스템에 적응
  • 엔드포인트 변경이나 데이터 전처리 불필요

출시 일정 (2025년 가을)

전략적 파트너십:

제공 내용:

  • ✅ 완전한 API 및 SDK
  • ✅ Playground 환경
  • ✅ 포괄적인 문서 및 가이드
  • ✅ 기술 백서 (아키텍처 사양, 형식적 증명, 절차적 온톨로지 샘플, 평가 방법론 포함)

대상:

  • Fortune 500부터 솔로 창업자까지
  • 몇 시간 내에 프로덕션 준비 에이전트 배포 가능

결론: AI 왕국의 새로운 종

AI 왕국은 이미 여기에 있습니다:

  • CNN: 비전
  • LLM: 언어
  • GNN: 분자 설계
  • Apollo-1: 태스크 지향 대화

각 아키텍처는 다른 종류의 일반화 기계를 만듭니다. 태스크 지향 대화형 AI는 자체 종이 필요했고, Apollo-1이 그것입니다.

트랜스포머는 창의적 확률에 최적화되어 있습니다. Apollo-1은 행동 확실성에 최적화되어 있습니다.


더 알아보기

 

Google Cloud partners with AUI | Google Cloud Blog

Running on Google Cloud infrastructure, AUI's agentic language model, Apollo enables a new generation of conversational agents.

cloud.google.com

 

이 말만 들어보면 태스크 지향 AI 시장에 오랜 고민을 끝내줄 새로운 방식이 등장한 것 같습니다. 그러나, 실제로 이것이 구현될지는 모르겠습니다. 사실 태스크 지향 LLM을 구현했다는 사람은 많아도 실제 결과를 보여준 것은 극히 드물기 때문입니다. 그렇기에 아폴로에 대해서 주목해볼 필요는 있을 것 같습니다.