XREAL
Vision
🤖

기존 NPC는 가라! 맞춤형 캐릭터는 AI NPC로부터

네이버의 첫 버추얼 휴먼 이솔, 로커스 엑스에서 개발한 가상 인플루언서 로지 등 버추얼 휴먼에 대한 관심과 투자는 지속적으로 이루어져 왔습니다. ChatGPT와 같은 대화형 AI 기술이 빠르게 고도화됨에 따라 버추얼 휴먼의 기술적 발전 또한 가속화되고 있습니다. 가상 인간, 버추얼 휴먼, 아바타, AI NPC 등 역할과 목적에 따라 다르게 불리는 해당 용어들은 AI 기술을 기반으로 생성된 사람과 유사한 형태의 가상 인물을 의미합니다. 이 중 AI NPC는 메타버스와 게임 등에서 사용자와 상호작용하는 인공지능 기술 기반의 캐릭터입니다. 음성인식, 자연어 처리, 음성합성 등의 기술을 이용하여 대화형 인공지능(Conversational AI)을 설계하고, 시각적 요소를 위해 그래픽스 기술로 얼굴을 포함한 신체를 구현합니다.
NPC란 "Non-Player Character"의 약어로, 가상환경에서 사용자가 조작하는 캐릭터가 아닌 컴퓨터가 제어하는 캐릭터를 의미합니다. NPC는 게임 내 이야기의 흐름을 주도하거나 플레이어에게 정보를 제공하는 등의 역할을 수행합니다. 기존 게임에서의 NPC는 게임 개발자의 기획 의도에 따라 프로그래밍이 된 규칙 안에서 행동하고, 정해진 스크립트와 녹음된 음성에 따라 제한적으로 유저와 커뮤니케이션해왔습니다. 하지만 딥러닝 기술을 활용하여 AI NPC를 구현할 경우 기존의 NPC와는 다른 프로세스로 운영이 가능합니다. 고정된 패턴에서 벗어나 유저의 행동과 전체적인 맥락에 맞게 행동하며 개발자조차 예상하지 못한 새로운 경험을 제공합니다. 인공지능 기술을 활용하여 캐릭터의 행동, 감정, 대화 등을 실시간으로 생성하여 입체적인 행동 양식을 제공함으로써 사용자가 게임에 더욱 몰입할 수 있도록 도울 수 있습니다.
AI NPC에서 중요한 기술인 대화형 인공지능을 메타버스 내에서 효과적으로 활용하기 위해서는 음성 기술을 활용해야 합니다. 2D 기반의 컴퓨터에서는 Chat의 형태로 텍스트를 통해 의사소통하는 것이 용이하지만, 메타버스에서 주로 활용하는 VR 인터페이스는 직접 타이핑을 쳐서 다른 사람과 소통하기에는 불편함이 있습니다. 원활한 소통을 위해서는 사용자의 발화를 인식하는 기술과 해당 음성을 텍스트로 변환하여 자연어 처리를 수행하고, 맥락에 맞는 말을 다시 음성으로 전환하여 음성을 합성하는 기술이 필요합니다. 또한 그래픽스 기술을 활용하여 최대한 불쾌한 골짜기 현상을 형성하지 않는 자연스러운 시각화 기술이 필요합니다. 이처럼 AI NPC를 구성하기 위해 활용할 수 있는 최근 기술과 사업에 대해 소개하고자 합니다.
*불쾌한 골짜기 현상(uncanny valley)이란 인간이 로봇이나 인간이 아닌 것들에 대해 느끼는 감정에 관련된 로봇공학 이론이다.

음성 복제 기술 VALL-E

Microsoft(MS)의 연구팀은 올해 초 3초의 오디오 샘플을 통해 음성을 시뮬레이션할 수 있는 인공지능 기반 음성합성 모델 ‘VALL-E’를 발표했습니다. VALL-E는 목소리를 학습하면 유사한 목소리를 자연스럽게 구현할 수 있으며, 감정과 어조에 따른 변화까지 조절할 수 있습니다. VALL-E는 발화 내용과 감정 톤을 보존하는 것 외에도 샘플 오디오의 음향 환경도 모방합니다. 예를 들어 샘플 음성이 전화 통화에서 발생한 경우 VALL-E를 통해 음성을 생성할 때 전화 통화의 음량 및 주파수 속성을 합성합니다. 마치 전화 통화를 하는 것과 같이 음성을 생성할 수 있는 것이죠.
VALL-E는 ‘신경 코텍 언어 모델’이라고 부르며 Meta가 지난해 10월 발표한 AI 기반 오디오 압축 기술 EnCodec에 기반하여 만들어졌습니다. 사람의 목소리를 EnCodec을 통해 개별 토큰으로 분석한 뒤 AI가 다른 단어의 소리를 낼 때 목소리가 어떻게 들릴지 예측합니다. 기존의 파형 조작 방식 대신 텍스트 및 음향 프롬프트에서 오디오 코텍 코드를 생성하는 것 입니다. 해당 기술로 음성을 품질 손실 없이 64kbps MP3 형식보다 10배 작은 오디오로 압축할 수 있고, 전화 통화 같은 저품질 음성도 극적으로 음질을 향상할 수 있다는 게 MS의 설명입니다. VALL-E는 Meta의 LibriLight라는 7000명 이상 화자와 6만시간 분량의 영어 연설로 구성돼있는 라이브러리를 통해 학습되었습니다. 하지만 현재까지는 VALL-E가 고품질 음성을 생성하려면 3초 샘플이 훈련 데이터의 음성과 거의 일치해야 가능한 것으로 알려져 있습니다.
출처 Microsoft
VALL-E의 기술에 대해 우려가 섞인 부정적인 의견도 존재합니다. 단 몇 초 만에 누군가의 목소리를 완벽하게 흉내 낼 수 있는 도구가 있다면, 오디오 딥페이크로 악용될 가능성이 있기 때문입니다. 이에 대해 MS는 "이러한 위험을 완화하기 위해 오디오 클립이 VALL-E에 의해 합성되었는지 여부 등을 식별하는 감지 모델을 구축할 수 있다"면서 "모델을 추가로 개발할 때 MS의 AI 원칙을 적용할 것"이라고 밝혔습니다.

CharacterGPT

출처: Alethea AI
미국 스타트업 Alethea AI는 사용자가 작성한 텍스트 형태의 설명을 기반으로 대화형 인공지능 캐릭터를 생성하는 CharacterGPT 서비스를 제공합니다. CharacterGPT는 사용자가 원하는 캐릭터의 상황, 외형 등의 설명을 작성하면 그에 맞는 외모, 목소리, 지능, 성격 및 정체성을 가진 대화형 캐릭터를 빠르게 생성하는 AI 시스템입니다. 이에 따라 ChracterGPT는 Text-to-Character 생성이 가능합니다. ChracterGPT 서비스는 ‘MyChracter.ai’ 애플리케이션을 통해 누구든 캐릭터를 생성할 수 있습니다. MyCharacter.ai는 AI 캐릭터 생성을 가능하게 하는 AI 프로토콜에 구축된 분산형 애플리케이션(dApp)이기 때문에 생성된 캐릭터릏 NFT로 토큰화할 수 있습니다.
위 영상은 **“a good skateboarder girl with long black hair”**이라는 설명을 입력했을 때 생성된 캐릭터입니다. 구현된 캐릭터의 외형적인 모습은 사람과 굉장히 유사하며 자연스럽지만, 사용자가 입력한 캐릭터 설명을 충분히 반영한 결과물이라고 보기 어렵습니다. 또한 Text-to-Character 기술을 활용하여 제작할 수 있는 캐릭터의 외향에 제한이 있었습니다. 해당 캐릭터와의 Chat을 통해 주고받는 대화의 내용은 사람과 이야기하고 있다고 해도 믿을 정도로 자연스러웠고, 발화 목소리도 큰 어색함은 없었습니다. 하지만 대화 과정에서 움직이는 캐릭터의 입 모양은 굉장히 부자연스러웠습니다. 캐릭터의 외형을 만드는 것까지는 자연스럽게 가능하지만, 다양한 모션을 수행하는 데에는 어색함과 제약이 있는 것을 확인할 수 있었습니다.

Convai AI

Convai는 지능형 NPC가 텍스트나 음성을 통해 플레이어와 자연스럽게 대화하고, 고급 작업을 수행할 수 있도록 지원합니다. Convai 공식 웹사이트를 통해 캐릭터를 직접 제작할 수 있습니다. 우선 캐릭터의 이름을 설정하고, 여러 목소리 옵션 중에 하나를 고를 수 있습니다. 현재 제공되는 목소리 옵션은 25개로 제한되어있지만, 다른 캐릭터 생성형 서비스에 비해 다양한 목소리를 제공합니다.
위 화면은 ‘A tired girl who leads her tired body home from work and has a research meeting’이라는 설명을 작성하여 생성한 캐릭터입니다. 사용자가 제공한 인풋과 달리 그다지 피곤해 보이지도, 퇴근을 마치고 돌아온 직장인 같아 보이지도 않는 캐릭터가 형성된 것을 확인할 수 있습니다. 캐릭터의 외형적 모습은 아이코닉하고 스타일리쉬하지만, 작성한 텍스트의 문맥과는 어울리지 않는 캐릭터가 생성되었습니다. 캐릭터와의 의사소통의 경우, 캐릭터에 미리 설정한 설명을 기반으로 문맥에 맞는 대화를 할 수 있었습니다. ‘요즘 어때?’라는 질문에 ‘나는 일이 끝나고 집에 막 왔어. 곧 리서치 미팅을 진행할 거야’라고 답을 하였고, 이는 설정한 캐릭터에 대한 Backstory가 올바르게 반영된 결과를 보여줍니다.
왼쪽은 CharacterGPT가 사용자의 설명을 기반으로 자동 생성한 캐릭터이고, 오른쪽은 특정 얼굴 사진을 업로드하고, 세부 항목을 편집하여 생성한 캐릭터입니다. 또한 Knowledge Bank 카테고리에 텍스트 파일을 작성하거나 업로드하여 해당 캐릭터에게 지식을 추가하거나 수정할 수 있습니다. 제작한 캐릭터는 언리얼 엔진, Nvidia Omniverse, Unreal Engine, Unity, Roblox, Discord 등에서 사용할 수 있습니다.

Inworld AI

Inworld AI는 몰입감 있는 가상 환경 및 AI 기반 가상 캐릭터 개발 플랫폼입니다. Inworld AI의 CEO Gelfenbeyn은 Inworld AI는 기본적으로 가상 캐릭터를 위한 브레인 구축 플랫폼이라며 개발자들이 환경에 맞게 다양한 가상 캐릭터를 만들 수 있는 도구 세트를 제공한다고 밝혔습니다. Inworld AI는 위에서 소개한 Convai에 비해 캐릭터의 성격과 의사소통에 필요한 속성에 많은 투자를 했다는 것을 느꼈습니다. 해당 플랫폼도 동일하게 ‘A tired girl who leads her tired body home from work and has a research meeting’이라는 설명을 통해 캐릭터를 생성했습니다. 간단한 한 줄의 설명을 입력하자 한 문단의 상황을 스스로 작성합니다. 또한 설명을 통해 자동으로 캐릭터를 생성하는 것에서 한단계 더 나아가 뇌의 기능을 조절하듯 캐릭터의 분위기와 성격을 정량적으로 설정할 수 있는 기능을 제공합니다. 캐릭터를 섬세하게 조정하고, 디테일하게 상호작용하고자 할 경우 유용한 서비스입니다.
캐릭터를 설정한 후에 대화를 진행할 때 단순히 대화 뿐만 아니라 해당 문장과 함께 어떤 행동을 할 지 함께 제시합니다. 예를 들어 “나는 생성형 AI에 대해 연구해”라고 말했을 때“(고객을 끄덕거리며, 굉장히 큰 흥미를 보이는 표정으로)나도 AI의 잠재력에 항상 관심을 가지고 있었어. 어떤 분야의 데이터를 연구해?”라고 대답합니다. 이는 시각화된 캐릭터가 어떻게 행동해야 하는지 가이드를 제공하기 위해 해당 기능이 포함된 것으로 예상합니다.
AI NPC는 활용도가 높은 기술입니다. 기존에 어색하기만 했던 아바타의 모습에서 한 단계 발전하여 꽤 자연스러운 모습으로 시각화되고 그럴듯한 대화도 가능합니다. 메타버스 환경에서 AI NPC는 사용자를 돕는 어시스턴트로써 역할 할 수도 있고, 무언가를 새롭게 가르치는 튜터로서 역할 할 수도 있습니다. 이때 가장 중요한 것은 AI NPC와의 상호작용이 사용자의 몰입감을 높임으로써 메타버스에 더 오래 머물고 싶다고 생각하게 만든다는 점입니다. 친구, 가족, 직장 동료 등 특정한 공간과 상황에서 맺는 사회적 관계는 개인에게 소속감과 안정감을 제공합니다. 떄로는 도움을 주고, 마음이 맞는 친구가 되기도 하는 나만의 맞춤 캐릭터가 당신을 메타버스에 다시 방문할 수밖에 없도록 손짓 할지도 모르죠
(작성자: 이다솔)