
AI 연구원이자 더 적은 컴퓨팅 성능을 사용하는 더 저렴한 AI 시스템을 옹호하는 Sara Hooker는 자신의 간판을 걸고 있습니다. AI 회사인 Cohere의 전 연구 부사장이자 Google DeepMind 베테랑인 그녀는 자신의 새로운 스타트업인 Adaption Labs를 위한 초기 자금으로 5천만 달러를 모금했습니다. 이전에 Cohere의 추론 컴퓨팅 이사였던 Hooker와 공동 창립자인 Sudip Roy는 오늘날 대부분의 주요 AI 모델보다 컴퓨팅 성능을 덜 사용하고 실행 비용도 더 적게 드는 AI 시스템을 만들려고 노력하고 있습니다. 그들은 또한 다양한 기술을 사용하여 대부분의 기존 모델보다 해결해야 하는 개별 작업에 더 “적응”할 수 있는 모델을 목표로 하고 있습니다. (따라서 스타트업 이름입니다). 자금 조달 라운드는 Emergence Capital Partners가 주도하고 Mozilla Ventures, 벤처 캐피탈 회사 Fifty Years, Threshold Ventures, Alpha Intelligence Capital, e14 Fund 및 Neo가 참여합니다. 샌프란시스코에 본사를 둔 Adaption Labs는 모금 후 가치 평가에 대한 정보 제공을 거부했습니다. Hooker는 Fortune과의 인터뷰에서 비용이 많이 드는 재교육이나 조정 없이, 그리고 현재 대부분의 회사가 AI 모델을 특정 사용 사례에 맞게 조정하는 데 사용하는 광범위한 상황별 엔지니어링 없이 지속적으로 학습할 수 있는 모델을 만들고 싶다고 말했습니다. 지속적으로 학습할 수 있는 모델을 만드는 것은 AI에 남은 가장 큰 과제 중 하나로 간주됩니다. Hooker는 “이것은 아마도 내가 연구한 문제 중 가장 중요한 문제일 것입니다.”라고 말했습니다.
Adaption Labs는 더 유능한 AI 모델을 만드는 가장 좋은 방법은 기본 LLM을 더 크게 만들고 더 많은 데이터로 교육하는 것이라는 AI 업계의 일반적인 믿음에 대한 큰 내기를 나타냅니다. 거대 기술 기업들이 점점 더 큰 규모의 교육 프로그램에 수십억 달러를 투자함에 따라 Hooker는 이러한 접근 방식의 수익이 감소하고 있다고 주장합니다. “대부분의 연구실에서는 매년 모델의 크기를 4배로 늘리지 않을 것입니다. 주된 이유는 아키텍처가 포화 상태이기 때문입니다.”라고 그는 말했습니다.
Hooker는 AI 산업이 더 이상 단순히 더 큰 모델을 구축하는 것에서가 아니라 당면한 작업에 더 쉽고 경제적으로 적응할 수 있는 시스템을 구축함으로써 개선이 이루어질 수 있는 “판단점”에 있다고 말했습니다. Adaption Labs는 지속적인 학습을 목표로 하는 새로운 AI 아키텍처를 추구하는 유일한 “neolab”(OpenAI, Anthropic 및 Google DeepMind와 같은 좀 더 확고한 기업의 성공을 뒤따르는 차세대 최첨단 AI 연구소이기 때문에 소위 불림)이 아닙니다. OpenAI의 수석 연구원인 Jerry Tworek은 최근 몇 주 동안 회사를 떠나 Core Automation이라는 자신의 스타트업을 설립했으며, 새로운 AI 방법을 사용하여 지속적으로 학습할 수 있는 시스템을 만드는 데에도 관심이 있다고 말했습니다. 구글 딥마인드(Google DeepMind)의 수석 연구원이었던 데이비드 실버(David Silver)는 지난 달 인공 지능 시스템이 정적 데이터 대신 취하는 행동으로부터 학습하는 강화 학습 사용에 중점을 둘 Ineffable Intelligence라는 스타트업을 시작하기 위해 거대 기술 기업을 떠났습니다. 일부 설정에서는 지속적으로 학습할 수 있는 AI 모델이 탄생할 수도 있습니다. Hooker의 스타트업은 세 가지 “기둥”을 중심으로 작업을 구성하고 있다고 그는 말했습니다. 적응형 데이터(AI 시스템이 대규모 정적 데이터 세트를 훈련하는 대신 즉석에서 문제에 대응하는 데 필요한 데이터를 생성하고 조작하는 데이터); 적응형 지능(문제의 난이도에 따라 소비되는 컴퓨팅 양을 자동으로 조정) 적응형 인터페이스(사용자가 시스템과 상호 작용하는 방식을 통해 학습) Google에서 근무한 이후 Hooker는 AI 업계 내에서 많은 동료 AI 연구자들의 “규모가 필요한 모든 것”이라는 교리에 반대하는 사람으로 명성을 얻었습니다. 널리 인용된 2020년 기사 ‘하드웨어 복권’에서 그는 AI 아이디어가 고유한 장점보다는 기존 하드웨어에 적합한지 여부에 따라 성공하거나 실패하는 경우가 많다고 주장했습니다. 최근에 그녀는 더 나은 훈련 기술을 갖춘 작은 모델이 훨씬 더 큰 모델보다 성능이 뛰어날 수 있다고 주장하는 “확장의 느린 죽음에 관하여”라는 연구 논문을 작성했습니다.
Cohere에서 그는 119개국의 3,000명의 컴퓨터 과학자와 협력하여 선도적인 최첨단 모델이 제대로 작동하지 않았던 수십 개의 언어에 최첨단 AI 기능을 도입하고 상대적으로 컴팩트한 모델을 사용하여 이를 수행한 Aya 프로젝트를 옹호했습니다. 이 작업은 데이터 큐레이션 및 교육에 대한 창의적인 접근 방식이 원시 규모를 상쇄할 수 있음을 보여주었습니다. Adaption Labs가 조사하고 있는 아이디어 중 하나는 “그라데이션 없는 학습”입니다. 현재의 모든 AI 모델은 수십억 개의 디지털 뉴런에 걸쳐 있는 매우 큰 신경망입니다. 전통적인 신경망 훈련에서는 경사하강법(gradient descent)이라는 기술을 사용하는데, 이는 눈을 가린 등산객이 작은 발걸음을 내딛고 경사를 내려가고 있는지 느끼면서 계곡에서 가장 낮은 지점을 찾으려고 하는 것과 약간 비슷합니다. 모델은 “가중치”(주어진 뉴런이 자체 출력에서 연결된 다른 뉴런의 입력을 얼마나 강조하는지 결정하는)라는 수십억 개의 내부 설정을 약간 조정하여 각 단계를 거쳐 정답에 가까워졌는지 확인합니다. 이 프로세스에는 엄청난 컴퓨팅 성능이 필요하며 몇 주 또는 몇 달이 걸릴 수 있습니다. 그리고 모델이 훈련되면 이러한 가중치는 제자리에 고정됩니다. 특정 작업에 맞게 모델을 개선하기 위해 사용자는 때때로 미세 조정에 의존합니다. 여기에는 더 작고 더 엄선된 데이터 세트(일반적으로 여전히 수천 또는 수만 개의 예시로 구성됨)에 대해 모델을 추가로 훈련하고 모델 가중치를 추가로 조정하는 작업이 포함됩니다. 다시 말하지만 비용이 많이 들고 때로는 수백만 달러에 이를 수도 있습니다.
또는 사용자는 모델이 수행하기를 원하는 작업을 어떻게 수행해야 하는지에 대한 매우 구체적인 지침이나 지침을 모델에 제공하려고 시도합니다. Hooker는 이를 “빠른 스턴트”라고 일축하며 프롬프트가 종종 작동을 멈추고 모델의 새 버전이 출시될 때마다 다시 작성해야 한다는 점을 지적합니다. 그는 자신의 목표가 “빠른 엔지니어링을 제거하는 것”이라고 말했습니다.
Gradient-Free 학습은 튜닝 및 신속한 엔지니어링과 관련된 많은 문제를 방지합니다. 비용이 많이 드는 훈련을 통해 모델의 내부 가중치를 모두 조정하는 대신 Adaption Labs의 접근 방식은 모델이 쿼리에 응답하는 순간 모델의 동작을 변경합니다. 이를 연구자들은 “추론 시간”이라고 부릅니다. 모델의 핵심 가중치는 그대로 유지되지만 시스템은 여전히 현재 작업에 따라 동작을 조정할 수 있습니다.
“가중치를 건드리지 않고 모델을 어떻게 업데이트합니까?” 후커가 말했다. “아키텍처 공간에는 정말 흥미로운 혁신이 있으며 훨씬 더 효율적인 방식으로 컴퓨팅을 활용하고 있습니다.” 이를 수행하는 몇 가지 다른 방법을 언급하셨습니다. 하나는 시스템이 본질적으로 어댑터 레퍼토리(종종 작은 데이터 세트에 대해 별도로 훈련되는 작은 모델)에서 선택하는 “즉석 융합”입니다. 그런 다음 이러한 어댑터는 대규모 기본 모델의 응답을 형성합니다. 모델은 사용자가 묻는 질문에 따라 사용할 어댑터를 결정합니다.
또 다른 방법은 “동적 디코딩”입니다. 디코딩은 모델이 가능한 응답 범위에서 결과를 선택하는 방법을 나타냅니다. 동적 디코딩은 모델의 기본 가중치를 변경하지 않고 현재 작업에 따라 확률을 변경합니다. Hooker는 “우리는 단순한 모델에서 벗어나고 있습니다.”라고 말했습니다. “이것은 심오한 개념의 일부입니다. 상호 작용을 기반으로 하며 모델은 작업이 무엇인지에 따라 실시간으로 변경되어야 합니다.” Hooker는 이러한 방법으로의 전환이 AI의 경제성을 근본적으로 변화시킨다고 주장합니다. “가장 비용이 많이 드는 컴퓨팅은 사전 훈련 컴퓨팅입니다. 그 이유는 엄청난 양의 컴퓨팅과 엄청난 시간이 필요하기 때문입니다. 추론 컴퓨팅을 사용하면 (컴퓨팅 성능의 각 단위)에 대해 훨씬 더 많은 것을 얻을 수 있습니다.”라고 그는 말했습니다.
Adaption의 CTO인 Roy는 AI 시스템을 효율적으로 작동시키는 데 있어 광범위한 경험을 제공합니다. Hooker는 “저의 공동 창업자는 GPU를 매우 빠르게 실행하도록 만들었습니다. 이는 실시간 구성 요소 때문에 우리에게 중요합니다.”라고 말했습니다.
Hooker는 Adaption이 시드 라운드에서 얻은 자금을 사용하여 더 많은 AI 연구원과 엔지니어를 고용하고 디자이너를 고용하여 대부분의 AI 모델이 사용하는 표준 “채팅 바”를 넘어서 AI를 위한 다양한 사용자 인터페이스를 작업할 것이라고 말했습니다.
이 이야기는 원래 Fortune.com에 게재되었습니다.

