지난주에는 ChatGPT와 메타버스에 대한 소식을 전해드렸습니다. 조금 더 나아가 생성형 인공지능 기술에 대해 알아보고, 해당 기술이 가져올 메타버스의 새로운 패러다임에 관해 이야기해보고자 합니다. OpenAI의 언어 모델 ChatGPT, 그림 생성 모델 Midjourney, 코드 생성 모델 Copilot 등 생성형 AI 기술에 대한 관심과 사용 후기가 쏟아지고 있습니다. 인공지능에 대한 관심이 뜨거워지자 Meta, Google과 같은 빅테크 기업에서도 내부적으로 개발 중이던 여러 인공지능 모델을 앞다투어 공개하기 시작했습니다.
인공지능이 새로운 개념이 아님에도, 모두가 주목하는 지점은 “생성”이라는 가치에 있는 듯합니다. 딥마인드가 개발한 알파고의 등장은 모든 경우의 수를 계산할 수 있는 괴물 같은 컴퓨팅 능력으로 모두를 놀라게 했지만, 그 기술 자체는 조금 멀게 느껴졌습니다. 하지만 요새 회자하는 생성형 AI는 무언가 다릅니다. 평상시에 사람만이 할 수 있다고 느껴졌던 일들을 너무나도 자연스럽게, 그리고 높은 수준으로 해내고 있죠. 또한 이미 학습된 딱 맞는 답을 아웃풋으로 제공하는 것이 아닌 마치 생각하는 것처럼 매번 새로운 아웃풋을 창조합니다. 말 한마디에 그림을 그려주고, 시를 써주는 이 상황은 인공지능이 얼마나 우리의 곁에 가까이 다가왔는지 피부로 느끼게 합니다.
창의력의 영역을 침범하는 생성형 인공지능(Generative AI) 기술
출처: McKinsey & Company
생성형 AI는 텍스트, 코드, 이미지, 오디오, 비디오와 같은 데이터를 기반으로 새로운 콘텐츠를 생성하는 기술입니다. 인공지능 모델의 개발 목적과 학습 데이터의 형태에 따라 특화된 구성의 기술을 사용합니다. 가장 주목을 받는 자연어 처리 기술인 GPT-3와 BERT는 트랜스포머(Transformer) 구조를 활용하고 있죠.
또한 생성형 AI 모델이 놀라울 정도로 높은 수준의 결과물을 제작할 수 있는 가장 큰 이유는 대용량의 데이터로 학습이 되었기 때문입니다. AI 모델을 학습시키기 위해 사용되는 컴퓨터 리소스와 데이터의 양은 상상을 초월합니다. 메타는 자연어 처리 인공지능 모델 LLaMa를 학습시키기 위해 1조 4천억 개의 토큰(말뭉치)가 사용되었습니다. 이렇게 학습된 복잡한 인공지능 모델은 개발자도 생각해내지 못한 새로운 아웃풋을 만들어냅니다. 그렇다면 이렇게 똑똑하고, 또 창의적인 생성형 AI 모델은 메타버스와 어떻게 시너지를 낼 수 있을까요?
생성형 AI와 메타버스
새로운 것을 빠르게 창조하는 생성형 AI가 어쩌면 메타버스의 게임체인저가 될 수 있을 듯합니다. Roblox(로블록스)도 지난달 28일 로블록스 스튜디오에 텍스트 명령어 기반 생성형 AI와 코드 완성 생성형 AI 도구를 출시할 예정이라고 발표했습니다. 생성형 AI에서 주목할 지점은 메타버스의 콘텐츠 제작 프로세스를 획기적으로 변화시킬 수 있다는 것에 있습니다. 사용자가 메타버스 환경에 머물고 싶어지는 킬러 콘텐츠를 만드는 것은 메타버스의 가장 큰 숙제 중 하나입니다. 하지만 3D 콘텐츠는 개발 난이도가 상대적으로 높아서 많은 시간과 인력이 투입될 뿐 아니라, 3D 환경에서 사용자가 온전히 몰입감을 느끼기 위해서 더 많은 그래픽 자원이 필요합니다.
학습시킨 생성형 AI를 통해 3D 모델을 만들 수 있다면, 콘텐츠 제작에 드는 비용과 시간을 획기적으로 단축할 수 있습니다. AI 및 그래픽 칩 제조업체인 엔비디아는 Magic3D: High-Resolution Text-to-3D Content Creation 논문과 함께 3D 모델 생성 AI 프레임워크를 작년 11월에 공개했습니다. Magic3D는 텍스트를 기반으로 고품질의 3D 메시 모델을 제작할 수 있는 Text-to-3D 생성 프레임워크입니다. 사용자가 프롬프트에 입력한 텍스트를 기반으로 저해상도 모델을 생성한 후 고해상도로 최적화하는 2단계 프로세스를 사용합니다.
출처: NVIDIA
아래의 그림과 같이 사용자가 제작하고자 하는 3D 모델에 대한 설명을 프롬프트에 입력하면, 자동으로 3D 텍스처 메시 모델을 생성합니다. 또한 생성된 모델을 확인한 후, 텍스트의 일부를 수정하여 3D 모델을 수정할 수 있습니다. 이렇게 생성된 3D 콘텐츠를 NVIDIA Omniverse 혹은 3D 그래픽 엔진에 렌더링하여 사용이 가능합니다.
출처: NVIDIA
디자인 기획, 3D 메시 제작, 텍스처 추가 등 3D 아트워크 제작을 위해서는 복잡한 프로세스와 긴 제작 시간 발생합니다. 아직 생성형 AI를 통해 사용자가 입력한 텍스트에서 그래픽 엔진에 사용할 수 있는 고해상도 3D 메시 모델로 전환하기까지 40분이 걸리지만, 기존 기술에 비해 두 배 이상 시간을 단축한 결과를 보여줍니다. 3D 아트워크 및 3D 공간을 구성하기 위해 생성형 AI의 힘을 빌린다면, 전문가뿐만 아니라 일반인들도 쉽게 활용하여 제작이 가능합니다. 콘텐츠를 제작하는 주체를 개발자에 국한하지 않고 사용자로 확대한다면 생산자의 진입장벽을 낮춤으로써 메타버스 애플리케이션들이 콘텐츠의 구성을 폭발적으로 확대할 수 있습니다. 또한 생성형 AI를 통해 제작되는 다양한 디자인은 벤치마킹 아이디어를 제공함으로써 새로운 영감을 제공할 수 있고, 기술이 더 개발된다면 실시간으로 제작되어야 하는 모델을 즉각적으로 생성할 수 있을 것입니다.
출처: A16Z
그뿐만 아니라 게임, 그래픽스, 캐릭터, 오디오와 같이 콘텐츠 구성 요소를 생성형 AI를 통해 구현하고자 하는 여러 스타트업이 있습니다. Kaedim, Promethean AI 및 BariumAI와 같은 회사는 생성형 AI 기술을 사용하여 게임 및 메타버스 애플리케이션을 위한 아트워크와 3D 공간을 자동 생성하고 있습니다. 아직 온전히 상용화되기에는 데모 레벨인 경우가 많지만, 생성형 AI는 플레이어가 원하는 것을 기반으로 플레이어만을 위해 만들어진 개인화 게임과 메타버스 공간을 상상하는 것도 가능하게 합니다.
또한 생성형 AI와 메타버스의 시너지 효과는 맞춤형 AI 어시스턴트에서도 찾을 수 있습니다. 마치 Tony Stark의 자비스와 같은 존재를 말이죠. VR 기기를 착용하고 마주하는 메타버스 세계는 인터넷을 사용할 때와는 차별화된 사용자 경험이 필요합니다. 지금의 기술력에서 VR 기기는 2D 기반의 컴퓨터와 다르게 무언가를 검색하거나 오랜 시간 사용하기에 적합하지 않습니다. 따라서 사용자가 원하는 것을 빠르게 캐치하여 정확하게 전달하는 것이 메타버스 공간에서 필수적입니다. ChatGPT는 마치 사람과 대화하듯이 자연스럽게 대답하고, 사용자의 의도에 맞는 대답을 제공합니다. 맥락을 이해하고, 합리적인 대답을 제공함으로써 대화의 몰입감을 높입니다. ChatGPT를 음성화하여 사용자와 상호작용한다면 대화가 가능하다는 측면에서 아이언맨에 나오는 자비스와 유사한 역할을 하기를 기대할 수 있습니다.
이미 Siri, Alexa와 같은 인공지능 기반의 발화형 개인 어시스턴트 기술이 있지만, ChatGPT와 같은 생성형 모델이 특별한 이유는 방대하고 새로운 정보를 마치 사람과 대화하듯이 자연스럽게 주고 받을 수 있다는 것에 있습니다. 이번 달 1일 OpenAI는 음성-텍스트 변환모델인 ‘Whisper’ API를 공개했습니다. 이는 웹에서 수집한 68만 시간의 다국어 및 멀티태스크 데이터로 학습한 자동음성인식(ASR) 시스템입니다. API에서 ChatGPT 및 Whisper 모델을 통해 채팅뿐만 아니라 최첨단 언어 및 음성-텍스트 변환 기능을 활용할 수 있습니다. 이 같은 기술 활용하여 메타버스 환경에서 차별화된 사용자 경험을 제공하는 개인 맞춤형 어시스턴트를 개발할 수 있을 것입니다.
자비스의 역할을 할 수 있냐는 물음에 친절하게 답해주는 ChatGPT
또한 AI 기술을 활용하여 가상세계를 빌드하는 Promethean AI 스타트업은 사용자의 음성 명령을 기반으로 3D 공간의 구성과 디자인을 제작하는 데모를 공개했습니다. VR 컨트롤러는 두 손을 온전하게 사용하지 못하고 사용자 활동에 제약이 있습니다. 따라서 사용자가 음성으로 명령을 내리고, 이를 인식하여 3D 공간의 구성 요소를 추가 및 변경함으로써 개선된 사용자 경험을 제공합니다.
출처: Promethean AI
생성형 AI가 가져올 메타버스의 새로운 패러다임
인류는 반복적이고 지루한 일들을 자동화하면서 계속하여 발전해왔습니다. 그리고 자신의 일을 도구와 시스템에 위탁하며 시간과 자본을 효율적으로 사용할 수 있는 방법을 끊임없이 고민해왔죠. 이것이 간단한 명령으로 높은 퀄리티의 결과물을 도출하는 인공지능 모델의 기술에 사람들은 열광하는 하나의 이유라고 생각합니다. 인공지능은 작업에 드는 시간을 줄여주고, 새로운 인사이트를 제공하는 훌륭한 도구입니다. 메타버스는 특히 이러한 인공지능 기술의 도움이 많이 필요합니다. 개발자에게도, 사용자에게도 말이죠. 똑똑하고 창의적인 생성형 AI가 메타버스의 콘텐츠 고민을 해결하고, 사용자의 개선된 UX를 제공하는 코어 밸류 기술이 되기를 기대합니다.
작성자: 이다솔
[출처]