AI의 ‘학습’은 저작권 침해인가? 對인공지능 소송 몰아보기

생성형 인공지능, 법적 분쟁에 휘말리다

출처: 소프트웨어정책연구소(SPRi)

2021년 말부터 대중의 인기를 끈 생성형 AI 모델은 2023년 전성기에 접어들었습니다. 이제는 일상에서 코드 작성, 브레인스토밍, 그림 및 음악 리소스 생성 등 여러 분야에 인공지능을 사용하는 것에 익숙해졌으며, 수많은 스타트업과 오픈 소스 커뮤니티, 그리고 대기업까지 앞다투어 생성형 인공지능 모델을 출시 및 공개하고 있습니다. 그러나 생성형 인공지능이 유행하면서, 생성형 인공지능의 훈련에 사용된 저작물의 저작권 침해 문제도 불거지고 있습니다. 특히 2023년에는 Stable Diffusion을 선보여 그림 생성형 인공지능을 선도하고 있는 스태빌리티AI와 ChatGPT를 출시해 대규모 언어 인공지능의 수요를 창출한 오픈AI를 대상으로 십수 개의 소송전이 펼쳐졌습니다. 이번 뉴스레터에서는 2023 한 해 펼쳐진 주요 소송과 원고 및 피고의 주요 쟁점을 살펴보고자 합니다.

2023년의 對(대)인공지능 소송 대란

생성형 인공지능을 피고로 한 소송은 십수 건이 넘으며 대부분 현재 진행 중입니다. 이중 주요 소송 및 일정을 정리해보면 다음과 같습니다.

2023년 1월 켈리 매커넌, 칼라 오티즈와 사라 앤더슨 3인은 스태빌리티AI의 서비스 Stable Diffusion의 저작권 침해를 주장하며 소송을 제기하였습니다. 2월에는 스톡 이미지를 유료로 제공하는 사이트인 게티이미지가 저작권 침해 및 사용약관 위반을 주장하며 스태빌리티AI에 소송을 제기하였습니다. ChatGPT가 출시된 이후 7월에 코미디언 사라 실버맨이 오픈AI 및 메타를 대상으로 소송을 제기하였으며, 9월에는 조지 마틴, 조지 그리스함을 포함한 작가 17인이 저작권 침해를 주장하고 저작물의 불법 다운로드를 고발하며 오픈AI에 소송을 제기하였습니다. 또한 10월에 미 음반사 유니버설 뮤직, 앱코, 콘코드 퍼블리싱은 저작권이 보호되는 악곡 가사를 훈련에 사용한 혐의로 대화형 인공지능을 제공하는 앤스로픽을 제소하였습니다.

10월 31일 캘리포니아 북부 지방법원은 1월에 제기되었던 앤더슨의 소송을 증거 불충분으로 기각하였습니다. 생성형 인공지능이 원고의 저작물을 직접 참조하였다고 볼 근거가 부족하며, 원고 매커넌과 오티즈의 저작물이 미국 저작권청이 동록되어 있지 않아 저작권 침해를 인정할 수 없다는 이유였습니다. 다만 법원은 앤더슨의 저작물 16개에 대한 저작권 직접 침해는 인정하였습니다. 원고의 인격권 침해, DMCA(디지털 밀레니엄 저작권법) 위반, 부정경쟁 혐의에 대해서는 전부 기각하였습니다. 그리고 12월 말 뉴욕타임스는 유료 저작물의 복제로 인한 손해를 주장하며 오픈AI와 Copilot을 제공하는 마이크로소프트를 제소하였습니다. 앤더슨의 소송을 제외한 나머지 소송은 아직 진행 중이며 법원의 판결을 기다리고 있습니다. 또한 앤더슨의 소송은 법원이 원고에게 자료 추가의 허가(leave to amend)를 내렸고 이후에 항소 역시 가능하다는 점에서 아직 이 법적 분쟁이 갈 길은 멀어 보입니다.

원고의 ‘전략’은 과연 무엇인가?

먼저 게티이미지, 사라 실버맨과 조지 마틴은 피고가 저작물을 입수하는 방법 및 과정이 불법적으로 이루어졌다고 지적합니다. 게티이미지는 자신의 사전 데이터베이스에 접속, 사진을 사용해 인공지능을 훈련한 것은 사용 약관의 정면 위반이라고 밝혔으며, 실버맨과 마틴은 오픈AI가 사용한 Books1, Books2 데이터베이스 목록은 합법적인 경로만으로는 완성할 수 없는 목록이며, 해적판 유통 웹사이트 등 불법적인 경로를 거쳐 훈련 자료를 확보했을 것이라고 주장했습니다. 그림 인공지능을 제공하는 NovelAI 역시 그림 불법 유통 사이트 단부루(Danbooru)를 훈련에 사용하였다는 혐의로 비판을 받고 있습니다.

앤더슨을 비롯한 그림 생성형 인공지능을 대상으로 한 소송 다수와 뉴욕타임스는 피고의 인공지능 서비스를 조작해 원 저작물과 매우 유사하거나 일치하는 결과를 만들 수 있다는 것을 보이며 저작권 침해의 입증에 필수적인 의거성을 증명하려고 시도했습니다. 여기서 의거성은 침해 저작물이 피침해 저작물에 의거해 생성되었다는 것을 의미합니다. 인공지능의 복잡한 알고리즘 때문에 의거성을 직접 증명하기 어렵기 때문에 원고는 원 저작물과 인공지능의 출력 결과 상의 유사성을 근거로 내세웁니다.

출처: 미국 델라웨어 지방법원

앤더슨은 소송 기각 이후 자료를 다시 첨부하고 Stable Diffusion의 핵심 기술인 CLIP-guided diffusion의 원리를 언급해 img2img와 같은 이미지를 입력하는 인공지는 서비스도 이미지 입력을 텍스트 입력으로 전환되며, 텍스트 입력으로 전환된 후에도 원본 저작물과 유사한 결과를 출력함 수 있음을 보이며 의거성을 입증하고자 했습니다. 게티이미지도 그림 인공지능의 출력에서 게티이미지의 워터마크가 왜곡되어 출력된다는 점을 문제 삼았습니다. 뉴욕타임스는 ChatGPT의 일부 출력물이 원고 유료 기사의 원본 발췌(verbatim excerpts) 수준이라는 점을 지적했습니다. 다만 앤더슨의 경우 CLIP-guided diffusion과 CLIP-conditioned diffusion을 혼동했다는 지적을 받았습니다.

마지막으로 영화배우조합 SAG-AFTRA와 마틴 등은 부정 경쟁을 문제삼습니다. 인공지능의 원리가 통계에 입각한 수학적 결과 도출이라고 하더라도, 통계청 등의 결과물과 달리 인공지능의 결과물은 훈련된 저작물과 직접적으로 경쟁을 하게 됩니다. 경쟁자 위치에 있는 저작권자의 저작물을 사용하면서도 이에 대한 적절한 대가를 치르지 않는다는 점이 문제입니다. 마틴을 비롯한 작가들은 사용자들이 “ChatGPT를 사용해 ‘왕좌의 게임’ 원작 ‘얼음과 불의 노래’의 6권과 7권을 미리 쓰고 있다”며 “비록 오픈AI에 수익을 가져다 줄 수 있겠지만 원작자에게는 남는 것이 없을 것”이라 언급했습니다. 단 그림 인공지능의 부정경쟁행위(unfair competition) 여부는 앤더슨 대 스태빌리티AI 의 판결에서 기각된 바 있습니다.

그 외에 예술가의 이름을 프롬프트로 사용하는 행위를 문제 삼아 작가의 인격권 침해라는 주장도 있었으나, 이 역시 앤더슨 대 스태빌리티AI의 소송에서 기각되었습니다. 다만 DALL-E3와 미드저니와 같은 여러 그림 인공지능 서비스는 이후 예술가의 이름을 훈련하거나 프롬프트에 사용하는 기능을 제한하였습니다.

저작권과 공정 이용의 쟁점

8월 29일 오픈AI는 캘리포니아 북부 지방에 자신을 대상으로 한 소송 2건의 기각 요청을 전달하였습니다. 이 기각 요청에는 앞서 언급한 실버맨 대 오픈AI의 소송도 포함되어 있었습니다. 오픈AI는 저작권법의 공정 이용(fair use) 조항을 부각하며 저작권 직접 침해를 제외한 실버맨의 대위 침해(vicarious copyright infringement), DMCA 위반, 부정경쟁, 과실책임, 부닥이등 혐의에 대한 기각을 주장했습니다. 즉 저작권 직접 침해를 제외한 나머지 혐의는 법정에서 논의할 필요가 없다는 것입니다.

공정 이용은 무엇일까요? 각국마다 자세한 내용은 상이하지만 (이 기사에서의 모든 법률은 對인공지능 소송이 미국에서 이루어진다는 점을 감안해 미국 기준으로 작성되었습니다) 저작권자의 허가 없이 저작물을 제한적으로 이용 가능한 범위입니다. 예시를 들어보면 학교에서 교육 목적으로 저작물을 사용하는 경우와 비평 및 평가 목적으로 저작물을 사용해 만든 리뷰 영상 등이 있습니다. 특히 공정 이용은 연구 목적의 저작물 사용을 보증하며, 오픈AI는 혁신적인 기술인 인공지능 연구가 인류에게 대규모의 가치 창출을 제공할 수 있다는 점을 제시하며 인공지능 연구를 위해 저작물을 사용하는 것은 공정 이용이라고 주장했습니다. 실제로 미국의 컴퓨터 통신 산업 협회(CCIA)는 공정 이용을 통해 저작권의 유연한 사용을 장려한 시장에서 2조2000억 규모의 경제적 가치 창출 효과가 있었다고 밝혔으며, 공정 이용 조항이 추구하는 가치이기도 합니다.

출처: vice.com

그러나 오픈AI의 공정 이용에 대한 주장은 미국 법원 안에서는 받아들여지지 않을 가능성이 있습니다. 미 저작권법(Copyright Act) 17 U.S. Code § 107에서 공정 이용의 적용 여부를 판단할 때 저작권이 있는 저작물의 잠재적 시장이나 가치에 미치는 영향을 주요 기준 중 하나로 보고 있습니다. 연구를 위한 저작물의 사용임에도 불구하고 저작물과 직접 경쟁을 하면 원 저작물의 시장에 큰 영향을 미치기 때문에 공정 이용이라고 볼 수 없다는 판단을 내릴 수도 있습니다. 연구 결과물이 저작물과 경쟁적인 위치에 있다는 것이 생성형 인공지능과 기존의 인공지능 연구와의 큰 차이점이기도 합니다. 대한민국의 저작권법 역시 제35조의5(저작물의 공정한 이용)에서 저작물의 이용이 그 저작물의 시장에 미치는 영향을 고려하도록 명시합니다.

그러나 만약 인공지능의 훈련이 공정 이용에 해당하지 않는다면 연구자로서는 매우 난처해지게 됩니다. 연구 목적의 자료에 해당하는 저작물의 출처를 찾고 저작권자 수십만 명에게 개별 허락을 받는 것은 현실적으로 어렵습니다. 또한 인공지능의 구조로 인해 앞서 언급했듯이 저작권 침해의 중요한 단서인 의거성을 입증하기도 난해하며, 이로 인해 공정 이용과는 별개로 인공지능의 저작권 침해가 기각될 수도 있습니다. 일본과 EU를 비롯한 일부 국가는 인공지능의 학습 관련 예외조항을 입법했고 미국도 2023년 초 인공지능과 저작권에 관련한 공개 의견을 수합했습니다. 인공지능 기술 발전과 저작권자의 저작권 행사 사이 적절한 균형을 찾아 앞으로 인공지능에 관한 법률을 제정할 필요성이 있습니다.

[작성자: 김성규]