Sag는 Fortune과의 인터뷰에서 “AI 회사는 실수로 다스 베이더를 보여주지 않도록 사용자 신호와 모델 출력을 공격적으로 필터링하거나 다스 베이더의 비디오 및 이미지 제작 허가를 얻기 위해 권리 보유자와 계약을 체결해야 하는 위치에 있습니다.”라고 말했습니다. “라이선스 전략은 모든 사람에게 훨씬 더 유익합니다.”
3년 계약을 통해 OpenAI는 수백 개의 디즈니 소유 캐릭터를 Sora 및 ChatGPT 이미지에 통합할 수 있는 권한을 부여받습니다. Disney는 또한 내부적으로 ChatGPT를 구현하는 동시에 지분 보장을 받고 주요 OpenAI 고객이 될 것입니다.
Sag는 거래 자체가 일종의 “수익 공유”가 될 것이라고 말했습니다.
Sag는 “OpenAI는 수익 모델을 파악하지 못했습니다.”라고 말했습니다. “그래서 나는 이것을 단지 투자 거래로 만드는 것이 어떤 면에서는 그것을 단순화한다고 생각합니다. 디즈니의 경우… (OpenAI)는 어느 시점에서 이것을 수익성 있게 만들 수 있는 방법을 찾을 것이고 (디즈니)는 그 일부를 얻게 될 것입니다.”
이번 거래가 중요한 이유: ‘스누피 문제’
Sag는 AI 회사가 라이선스가 없는 콘텐츠로 모델을 교육하는 사례가 “매우 강력”하기 때문이라고 말했습니다. Anthropic과 Meta가 관련된 최근 두 건의 법원 판결은 이러한 주장을 더욱 강화했습니다.
Sag는 진짜 장애물은 항상 훈련이 아니라 결과라고 말했습니다. 모델이 실수로 다스 베이더, 호머 심슨, 스누피, 엘사와 너무 많이 닮은 프레임을 생성할 수 있다면 공정 사용 방어가 무너지기 시작합니다.
Sag는 “너무 많이 암기하면 그 암기가 결과에 도달하면 공정 사용 사례가 무너지기 시작합니다.”라고 말했습니다.
LLM을 교육하기에 충분한 텍스트 라이센스를 얻는 것은 불가능하지만(Sag는 수십억 건의 거래가 필요함) 올바른 파트너와 함께 라이센스 데이터에서 전적으로 이미지 또는 비디오 모델을 만드는 것이 가능하다고 말했습니다. 이것이 바로 디즈니와 같은 계약이 중요한 이유입니다. 교육 과정 자체가 공정 사용 자격을 갖추었는지 여부에 관계없이 이전에 불법이었던 제품을 합법화합니다.
Sag는 “제한 원칙은 본질적으로 일상 작업에서 이러한 모델이 교육 데이터에서 작업의 상당 부분을 재현하는지 여부입니다.”라고 말했습니다.
이는 AI 데이터의 미래에 대한 신호이기도 하다.
블로그 게시물에서 Sag는 다음과 같이 썼습니다.
“공용 인터넷의 낮은 열매가 선택되었습니다.”라고 그는 썼습니다. “더 나아지려면 OpenAI와 같은 회사는 다른 누구도 갖고 있지 않은 데이터에 액세스해야 합니다. Google에는 YouTube가 있고 OpenAI에는 이제 Magic Kingdom이 있습니다.”
이것이 그가 말하는 ‘데이터 희소성 이론’의 핵심입니다. OpenAI의 모델 품질 향상을 위해서는 더 많은 스크래핑이 아닌 독점적인 콘텐츠 파트너십이 필요할 수 있습니다.
Sag는 “세계 최대의 지적 재산권 보유자와 얽힘으로써 OpenAI를 고소하겠다고 위협한 바로 그 업계에 없어서는 안 될 존재가 되었습니다.”라고 썼습니다.
AI와 할리우드는 훈련 데이터, 초상권, 침해를 둘러싸고 3년 동안 냉전을 벌였습니다. 디즈니의 10억 달러 투자로 그 시대는 종말을 고하는 것으로 보인다.
Sag는 “이것이 미래를 위한 모델”이라고 썼습니다. “우리는 AI와 콘텐츠 간의 전면전에서 벗어나 협상을 통해 세계를 분할하는 방향으로 나아가고 있습니다.”
