XREAL
Vision

인공지능과 함께 진화할 메타버스: 콘텐츠 & 보안의 측면에서

인공지능과 함께 진화할 메타버스: 콘텐츠 & 보안의 측면에서

메타버스는 웹3.0 기술의 공간적 총집합체입니다.
홀로그램과 아바타를 활용해 유저를 몰입시키는 AR/VR 콘텐츠부터 블록체인NFT를 통한 가상 거래, 그리고 엣지 컴퓨팅을 활용한 대역폭 최적화까지 메타버스는 다양한 신기술의 융합을 통해 현실 세계를 시뮬레이션하며 유저에게 몰입형 경험을 선사해왔습니다.
하지만 메타버스는 현실 세계를 완전히 대체하기에는 어려울 것이라는 지적을 꾸준히 받아왔습니다. 바로 1) 콘텐츠 부족, 그리고 2) 사이버 보안 이슈가 주된 이유였는데요, 유저가 가상환경 상에서 즐길만한 3D 콘텐츠가 게임이나 엔터테인먼트 측면에만 지나치게 강조되어 있으며 디지털 아바타 신원 도용 등 신유형의 사이버 보안 문제에 대한 정책적 대비가 미흡하다는 것이 주요 한계점으로 작용했습니다.
그러나 메타버스를 구축하는 요소 기술 중 하나인 인공지능이 최근 눈부신 발전으로 각광을 받으며 앞서 언급된 메타버스의 단점들을 보완할 것이라는 관점이 새롭게 제기되고 있는데요, 바로 1) 텍스트 기반의 생성형 AI를 활용해 유저의 타이핑만으로 3D 환경을 창조하고 2) 멀티모달 딥러닝 기반의 IT 감사 시스템을 통해 가상 사이버 보안을 강화한다는 내용입니다.
과연 AI의 도약은 뉴메타버스 시대의 게임체인저 기술로 활약하며 가상환경 생태계의 활성화를 다시 한번 이끌어낼 수 있을까요?
그렇다면 이제 본격적으로 아티클에 뛰어보도록 합시다.

생성형 AI로 창조하는 Text-to-Metaverse 가상환경

손가락 타이핑만으로 3D 세상을 제어한다

스웨덴 웁살라 대학(Uppsala University) 게임 디자인 학부에서 발표한 “Generative AI for the Metaverse Era (2023)” 논문에 따르면 콘텐츠 생성을 위한 인공지능(AI for Generative Content, AIGC)의 미래는 메타버스 환경 상의 유저 기반 커스터마이제이션(User-Centric Customization)을 중심으로 발전할 것이라고 밝혔습니다.
바로 소수의 가상환경 크리에이터와 개발자에 의존했던 콘텐츠 공백의 시대에서 벗어나 유저가 직접 생성형 AI를 활용한 프롬프팅을 통해 창작하고자 하는 3D 환경을 구축하고 수정해나가는 시대로의 대전환을 의미하는 것인데요,
이제 유저는 몇 번의 타이핑만으로 아치, 원, 삼각형 등 단순한 3D 객체뿐만 아니라 복잡한 실내 인테리어와 백그라운드 환경까지 구현할 수 있게 된 것입니다.
그리고 저자는 “인공지능은 메타버스 생태계 전반을 침투하며 콘텐츠 제작 및 배포 전과정에 관여하는 기술로 자리잡을 것(”AI will penetrate the entire metaverse ecosystem, playing a role in accelerating content development and improving distribution”)이라고 밝히며 유저가 프롬프트로 3D 세상을 총체적으로 제어하는 Text-to-Metaverse 시대가 도래했음을 선언했습니다.
출처: Oncyber 공식 인스타그램 계정 “@oncyber” Magic Composer 홍보 게시글 스크린샷 일부 (https://www.instagram.com/p/Cp1EE2oL2KJ/)
Text-to-Metaverse 시대의 대표 예시로는 Oncyber의 Magic Composer가 있습니다.
Oncyber는 웹3.0 대표 유저 창작 메타버스 플랫폼으로 지난 3월 유료 회원들에 한정해 Early Access 형식의 오픈AI 챗GPT 3.5 모델 기반 3D 환경 구축 및 수정 기능 “Magic Composer”를 도입하였는데요, Text-to-Text, Text-to-Image, Text-to-Animation을 훌쩍 넘어 Text-to-User-created Metaverse를 구현하는데 첫 발걸음을 내디었다는 점이 가장 주목할만한 행보입니다.
다음은 Oncyber 공식 인스타그램 계정에 업로드된 Magic Composer 홍보 영상에서 언급한 유저 프롬프트의 예시인데요, 텍스트 입력 이후 단 몇초 만에 새로운 3D 환경이 펼쳐지는 것이 매우 인상적입니다:
아티스트 Terrell Jones의 그림들을 모두 추가해줘 (”Add all artworks by Terrell Jones”)
현재 그림들에 하얀색 테두리를 넣어줘 (”Add white frames (to all paintings)”)
모든 사진들을 20% 더 크게 확장해줘 (”Make them all 20% bigger”)
하늘을 궤도에서 바라보는 것처럼 둥글게 바꿔줘 (”Change sky to an orbit view”)
아티스트 Defaced의 조각을 설치해줘 (”Place a sculpture by Defaced”)
이와 같이 특정 아티스트의 2D 이미지나 3D 그래픽 결과물을 유저의 가상 공간에 배치하거나 기존 그림들에 테두리를 추가하고 사이즈를 확장하는 등 간단한 프롬프팅을 통해 가상 공간을 자유자재로 제어할 수 있다는 점이 핵심 포인트입니다.
이렇게 생성형 AI는 메타버스 구현 및 개발에 존재하던 장벽을 낮추는 역할을 합니다.
소수의 창작자와 개발자가 처음부터 끝까지 만들어놓은 메타버스 환경에 수동적으로 입장하기만 하는 것이 아니라, 이제는 유저도 직접 능동적으로 프롬프팅을 통해 자신이 원하는 3D 세상을 창조할 수 있습니다.
뿐만 아니라 생성형 AI는 그 자체만으로 엄청난 자원의 절약입니다.
가상 환경의 테마를 기획하고, 3D 객체를 일일이 모델링해서 공간에 띄우고, VR 환경을 개발하는 전 과정은 엄청난 시간, 인력, 비용을 요구하는데요, 웹3.0 시대의 창작자들은 생성형 AI의 무한한 콘텐츠 생산능력을 레버리지해 제작에 필요한 시간을 획기적으로 줄이고 보다 더 창의적인 작업에 집중할 수 있게 될 것입니다.
결국 Text-to-Metaverse 생성형 AI는 메타버스 콘텐츠의 양과 질을 기하급수적으로 끌어올리며 유저와 창작자 모두 기존보다 훨씬 더 풍부하고 다채로운 3D 몰입형 경험을 누릴 수 있게 할 것입니다.
기존 메타버스의 고질적인 문제였던 콘텐츠 공백이 해결된, 콘텐츠 바다의 뉴메타버스 시대가 무척이나 기대가 됩니다.

멀티모달 딥러닝으로 강화하는 가상환경 사이버 보안

출처: The Law of Mehrabian, UCLA
메라비안의 법칙에 따르면 정보 전달을 위한 커뮤니케이션에서 언어적 소통이 차지하는 비율은 고작 7%에 불과하다고 합니다.
효율적인 커뮤니케이션을 위해서는 언어 뿐만 아니라 제스처, 시선교환 등 비언어적인 요소들도 함께 복합적으로 어우러져야 한다는 것이 주요 골자인데요, AI도 마찬가지입니다.
단순 텍스트 뿐만 아니라 이미지, 비디오, 애니메이션 등 다양한 형태의 데이터를 기반으로 학습하고 올바른 의사결정을 내릴 수 있는 멀티모달 AI가 최근 급부상하고 있습니다.
그리고 멀티모달 AI를 구현하는 멀티모달 딥러닝은 아바타 신원 도난, 생체 정보 불법 수익화, HMD 기기 스푸핑 등 메타버스를 침투하는 신유형의 사이버 어택에 유연하게 방어하며 새로운 해결책으로 우뚝서고 있습니다.

멀티모달 딥러닝: 메타버스 시대 신유형의 사이버 어택에 대한 방어책

출처: IEEE “Auditing the Metaverse Requires Multi-Modal Deep Learning” 중 p.42 이미지 발췌
세계적인 학술지 IEEE에 발행된 ”Auditing the Metaverse Requires Multi-Modal Deep Learning (멀티모달 딥러닝을 활용한 메타버스 환경 감사)” 논문에서는 텍스트, 위치 좌표, 시선 처리, 음성 등 다양한 유형의 유저 생체 데이터를 기반으로 메타버스 상의 사이버 보안을 강화하는 멀티모달 딥러닝 기법을 소개합니다.
HMD 기기를 착용하고 가상 공간에 입장한 유저로부터 얻을 수 있는 데이터의 유형과 양이 방대하다 보니 그만큼 이를 악용하는 사례들도 증가하고 있는데요, 해당 아티클에서는 1) 아바타 신원 도난, 2) 불법 데이터 수익화, 3) 기기 스푸핑을 중심으로 살펴보도록 하겠습니다:
Table 1. Security Risks in Metaverse and Remediation Technologies
문제 (Problem)
해결책 (Solution)
딥페이크 디지털 아바타 신원 도난 (DeepFake Digital Avatar Theft)
적대적 생성 신경망 (Generative Adversarial Networks, GAN)
데이터 불법 악용 및 수익화 (Unlawful Monetization of Data)
순환 신경망 (Recurrent Neural Networks, RNN)
VR 기기 스푸핑 (VR Devices Spoofing)
행동분석 및 딥러닝 기반 패턴 인식 (Behavioural Analytics & Pattern Recognition in Deep Learning)
딥페이크 디지털 아바타 신원 도난 (DeepFake Digital Avatar Theft)
딥페이크는 딥러닝의 다층 신경망을 의미하는 딥(”Deep”)과 가짜를 뜻하는 페이크(”Fake”)가 합쳐진 용어인데요, 메타버스 환경에서는 사이버 공격자들이 딥페이크 기술을 악용해 타 유저의 가상 신분을 도용하고 사칭하는 사이버 범죄 사례가 속속히 드러나고 있다고 합니다.
딥페이크 기술이 가장 활발하게 악용되고 있는 곳은 메타버스에서 거액이 오가는 가상 거래로 디지털 아바타 간 이루어지는 경우가 많아 해킹을 통한 신원 도난이 일어났을 때의 재정적 피해가 막대합니다.
따라서 적대적 생성 신경망 (GAN) 기반의 멀티모달 딥러닝을 활용해 실제 유저의 아바타와 딥페이크 아바타를 프레임 기준으로 비교하고 불일치를 찾아내는 기법이 주목을 받고 있다고 합니다.
“생체 피처 기반 딥페이크 추적 모델 (Biological Feature-based Deepfake Detection Model)”이라고 불리는 해당 기법은 실제 인간만이 가지는 생체적 특징을 식별하고 유저와 딥페이크 아바타 간 패턴 차이를 찾아내는데 뛰어난 정확도를 보이는데요,
아바타 얼굴에 나타난 아주 미묘한 빛의 변화나 반사만으로도 해당 딥러닝 모델로 쉽게 감지될 수 있다고 하니 정말 놀라울 따름입니다.
데이터 불법 악용 및 수익화 (Unlawful Monetization of Data)
모바일 & 웹 기반의 2D 환경보다 가상 공간의 메타버스 환경에서는 필연적으로 유저가 더 많은 유형의 데이터를 남길 수 밖에 없는데요, 그 예시로는 아바타의 위치 좌표나 뇌파, 혈압, 호흡수, 시선 추적 등의 디지털 바이오마커가 있습니다.
이렇게 다방면으로 수집된 대량의 생체 데이터는 마케팅이나 정치적 목적으로 악용될 수 있을 뿐만 아니라, 최근에는 위치 정보를 활용한 아바타 간 스토킹 및 감시까지 행해지고 있다고 합니다.
이를 해결하기 위해 등장한 기법은 바로 순환 신경망 (RNN) 기반의 멀티모달 딥러닝으로 메타버스 환경 상에서 생성되는 대량의 콘텐츠를 모니터링 하는데 최적화된 모델인데요,
이렇게 수집된 유저 행동 분석 데이터를 기반으로 기존 패턴에서 벗어나거나 악용 사례와 비슷한 이상 현상이 감지된다면 곳바로 정교하게 찾아낼 수 있는 높은 성능을 지녔다고 합니다.
VR 기기 스푸핑 (VR Devices Spoofing)
스푸핑(Spoofing)이란 사용자의 시스템 권한을 획득한 뒤 정보를 빼가는 해킹 수법으로 눈속임을 뜻하는 영단어 “Spoof”에서 파생된 IT 용어입니다.
이때 VR (혹은 HMD) 기기 스푸핑은 위에서 언급된 딥페이크 신원 도난이나 데이터 악용 사례와는 조금 다른 양상을 보이는데요, 바로 소프트웨어가 아닌 유저의 물리적인 기기 즉 하드웨어에 접근한다는 점에 차이가 있습니다.
유저의 AR과 VR 체험에 핵심 역할을 하는 HMD 기기에 침투해 사용자의 데스크톱 화면에서 비밀번호나 결제 내역과 같은 민감한 정보들을 캡처하는 등 유저가 기기를 착용했을 때 바로 마주하는 UI에서 정보를 캐가는 것이 핵심입니다.
그리고 멀티모달 딥러닝은 이러한 기기 스푸핑을 방지하기 위해 유저가 HMD를 착용했을 때 디바이스의 어떠한 기능과 센서를 주로 사용하는지 주의깊게 살피며 하드웨어적인 측면에서의 유저 선호도를 다방면으로 분석합니다.
이렇게 수집된 데이터를 통해 유저의 HMD 기기 사용 프로필이 완성되고, 만일 평소 유저의 행동 양상과는 다른 모션이 높은 빈도수로 발생된다면 기기 스푸핑을 의심하는 방식으로 방지한다고 합니다.
웹2.0과 달리 메타버스에서는 신유형의 유저 정보를 다방면으로 수집하고 활용하는만큼 지능적인 사이버 범죄들도 늘어나고 있는데요, 새로운 VR환경의 보안 방화벽으로서 이에 유연하게 대응하고 있는 멀티모달 딥러닝의 앞으로의 행보가 기대됩니다.

글을 마무리하며

대한민국 과학기술정보통신부 [메타버스 윤리원칙] 중 p.8 이미지 발췌
지난 2022년 11월 28일, 대한민국 과학기술정보통신부는 창의와 혁신의 협력적 생태계를 지원하는 [메타버스 윤리원칙]을 발표하였습니다.
메타버스가 급속도로 확산함에 따라 발생할 수 있는 악성 콘텐츠 생성, 개인 정보 침해 등 다양한 윤리적 이슈들을 종합적으로 고려해보자는 취지인데요,
AI발 메타버스 사이클이 다시 돌아오고 있는 요즘 모든 사회 구성원이 신뢰할 수 있으며 지속가능하고 안전한 메타버스 환경을 구축하기 위해 가상 공간에 대한 주권 의식을 가지고 다각화된 윤리 의식을 가지기 위해 노력해야 한다는 코멘트와 함께 이만 마무리 짓도록 하겠습니다.
그럼 다음 주 아티클로 다시 찾아 뵙겠습니다, 구독자 여러분!
작성자: 조민주

[참고자료]

1) IEEE Explore: Auditing Metaverse Requires Multimodal Deep Learning (링크: https://ieeexplore.ieee.org/document/10063540)
Auditing_Metaverse_Requires_Multimodal_Deep_Learning.pdf
1149.7KB
2) KeAI: Generative Artificial Intelligence in the Metaverse Era (링크: https://www.sciencedirect.com/science/article/pii/S2667241323000198)
Generative AI in the metaverse era.pdf
1188.0KB
3) OpenAI’s GPT is Helping Turn Text into Custom Metaverse Worlds (링크: https://decrypt.co/123906/openai-gpt-text-custom-metaverse-worlds)
4) AI-Powered Metaverse Building with Oncybers Magic Composer (링크: https://scienceknowings.com/ai-powered-metaverse-building-with-oncybers-magic-composer/)
5) [메타 Zoom In] 가상자산 도난, 신원 사칭...증가하는 메타버스 사이버 공격, 보안시장에는 기회 (링크: https://www.metanews.co.kr/news/articleView.html?idxno=18090)
6) 대한민국 과학기술정보통신부 [메타버스 윤리의식 (2022.11.28)] (링크: https://www.msit.go.kr/bbs/view.do?sCode=user&mId=113&mPid=112&bbsSeqNo=94&nttSeqNo=3182405)