AI 에이전트의 헤드라인을 사로잡는 기능으로 심각한 신뢰성 문제를 가릴 수 있음

안녕하세요. Eye on AI에 오신 것을 환영합니다. 이번 판에서는… AI 신뢰성 문제… 트럼프가 AI 법안 초안을 의회에 보냅니다… OpenAI는 제품을 하나의 슈퍼 앱으로 통합하고 고용합니다… 개선 방식을 개선할 수 있는 AI 에이전트… 그리고 AI 모델이 정서적 고통을 경험한다고요?

많은 분들처럼 저도 AI 에이전트를 가지고 놀기 시작했습니다. 저는 종종 연구에 이 도구를 사용합니다. 이 도구는 아주 잘 작동하고 상당한 시간을 절약해 줍니다. 그러나 소위 “심층 조사” 에이전트는 1년 넘게 사용 가능해 AI 세계에서 비교적 성숙한 제품이 되었습니다. 또한 다른 작업에 컴퓨터를 사용하는 차세대 에이전트를 테스트하기 시작했습니다. 그리고 지금까지 내 경험에 따르면 이러한 에이전트는 매우 일관성이 없습니다.

예를 들어, 다양한 도구에 액세스할 수 있는 가상 머신에서 실행되는 에이전트 하네스인 Perplexity의 컴퓨터는 내가 거주하는 지역 재활용 센터의 반납 장소를 예약하는 데 큰 도움이 되었습니다. (Anthropic의 Claude Sonnet 4.6을 기본 추론 엔진으로 사용했습니다.) 그러나 제가 그에게 다가오는 출장을 위한 항공편 옵션을 조사해 달라고 요청했을 때 여행 예약이 AI 회사가 항상 이야기하는 표준 사용 사례 중 하나임에도 불구하고 그는 작업을 완료할 수 없었습니다. 에이전트가 한 일은 45분 동안 시도하는 동안 많은 토큰을 소비한 것입니다.

지난주 런던에서 정부 및 기술 정책 담당자를 위해 Anthropic이 주최한 AI 에이전트 데모 이벤트에서 저는 Claude Cowork가 처음에는 Excel 스프레드시트에서 상당히 간단한 데이터 분류 작업을 실행하는 데 어려움을 겪는 것을 보았습니다. 그 후 겉보기에는 문제가 없어 보이는 정교한 예산 예측 모델을 구축했습니다. 나는 또한 Claude Code가 표면적으로는 멋져 보이지만 기본 게임 플레이 논리가 전혀 이해되지 않는 간단한 텍스트 기반 비즈니스 전략 게임을 만드는 것을 보았습니다.

AI 에이전트의 신뢰성 평가

신뢰성 부족은 현재 AI 에이전트의 주요 단점입니다. AI Snakeoil이라는 책을 공동 집필했으며 현재 블로그 “AI As Normal Technology”를 공동 집필하고 있는 프린스턴 대학의 Sayash Kapoor와 Arvind Narayanan이 자주 언급하는 요점입니다. 그리고 몇 주 전에 그들은 AI 에이전트의 신뢰성에 대해 체계적으로 생각하고 주요 AI 모델을 비교하려고 시도하는 다른 컴퓨터 과학자 4명과 공동으로 작성한 연구 논문을 발표했습니다.

“AI 에이전트의 신뢰성 과학을 향하여(Toward a Science of Reliability of AI Agents)”라는 제목의 이 논문에서는 대부분의 AI 모델이 매우 신뢰할 수 없는 성능을 허용하는 측정 기준인 평균 작업 정확도에 대해 벤치마킹된다는 점을 지적합니다. 대신 그들은 네 가지 차원에 따라 신뢰성을 분석합니다. 일관성(동일한 작업을 동일한 방식으로 수행하라는 요청을 받으면 항상 동일한 작업을 수행합니까?); 견고성(조건이 이상적이지 않은 경우에도 작동할 수 있습니까?) 교정(사용자에게 확실성에 대한 정확한 아이디어를 제공합니까?) 그리고 안전(실수를 하면 그 실수는 얼마나 재앙이 될 수 있습니까?)

또한 이 4개 영역을 14개의 특정 지표로 나누고 2025년 11월 말까지 18개월 동안 출시된 여러 모델을 테스트했습니다(따라서 OpenAI의 GPT-5.2, Anthropic의 Claude Opus 4.5 및 Google의 Gemini 3 Pro가 테스트된 가장 진보된 모델이었습니다). 그들은 두 가지 벤치마크 테스트에서 모델을 테스트했는데, 그 중 하나는 대행사 작업에 대한 일반적인 벤치마크이고 다른 하나는 쿼리 및 고객 서비스 작업을 시뮬레이션했습니다. 그들은 연속적인 모델 출시마다 신뢰성이 향상되었지만 평균 정확도 수치만큼 향상되지는 않았다는 것을 발견했습니다. 실제로 일반대리점 벤치마크에서는 신뢰도 개선율이 정확도 개선율의 절반인 반면, 고객서비스 벤치마크에서는 7분의 1로 개선됐다.

신뢰성 지표는 현재 작업에 따라 달라집니다.

기사에서 조사한 네 가지 신뢰성 영역에서 Claude Opus 4.5와 Gemini 3 Pro는 둘 다 85%의 전체 신뢰성으로 최고의 점수를 받았습니다. 하지만 14개 하위지표를 살펴보면 여전히 우려할 여지가 많았다. 예를 들어 Gemini 3 Pro는 답변이 정확할 가능성이 있는 경우 52%로 좋지 않은 평가를 받았고, 잠재적으로 치명적인 오류를 피하는 데는 25%로 형편없었습니다. Claude Opus 4.5는 결과에서 가장 일관성이 있었지만 점수는 73% 일관성에 그쳤습니다. (다양한 지표에 대한 결과를 표시하기 위해 연구원들이 만든 대시보드를 확인하고 사용해 보시기 바랍니다.)

Kapoor, Narayanan 및 공동 저자들은 신뢰성이 모든 경우에 적용되는 일률적인 측정 기준이 아니라는 점을 알 만큼 정교합니다. 그들은 AI가 작업을 완전히 자동화하는 대신 인간을 향상시키는 데 사용된다면 인간이 백업 역할을 할 수 있기 때문에 AI의 일관성과 견고성이 떨어지는 것이 괜찮을 수 있다고 지적합니다. 그러나 “자동화의 경우 신뢰성은 구현을 위한 어려운 전제 조건입니다. 작업의 90%에서는 성공하지만 나머지 10%에서는 예측할 수 없이 실패하는 에이전트는 유용한 보조자일 수 있지만 용납할 수 없는 자율 시스템일 수 있습니다.”라고 그들은 썼습니다. 그들은 또한 다양한 환경에서 다양한 유형의 일관성이 중요하다는 점을 지적합니다. “경로 일관성은 프로세스 감사나 재현성이 필요한 영역에서 더 중요합니다. 여기서 이해관계자는 에이전트가 결론을 내린 것뿐만 아니라 그것이 어떻게 도달했는지 확인해야 합니다.”라고 그들은 썼습니다. “다양한 솔루션이 필요한 개방적이거나 창의적인 작업에서는 그다지 중요하지 않습니다.”

어느 쪽이든 Kapoor, Narayanan 및 공동 저자는 정확성뿐만 아니라 신뢰성에 대한 벤치마킹을 요구하고 AI 모델 공급업체가 단순히 능력이 아닌 신뢰할 수 있는 시스템을 구축하도록 요구하는 것이 옳습니다. 이번 주에 발표된 또 다른 연구는 그런 일이 일어나지 않을 때 잠재적인 실제 결과를 보여줍니다. AI 연구원 윤관섭 씨와 헬스케어 컨설턴트 클레어 헤이스트 씨는 세 가지 의료 AI 도구가 하나의 시스템에 함께 연결되면 실제 의료 환경에서 일어날 수 있는 일을 살펴보았습니다. 유방 조영술을 분석한 AI 영상 도구는 90%의 정확도를 보였고, 의사가 환자를 검사하는 오디오 녹음을 의료 기록으로 변환한 전사 도구는 85%의 정확도를 보였으며, 이를 진단 도구에 전달하여 보고된 정확도는 97%였습니다. 하지만 함께 사용했을 때 신뢰도 점수는 74%에 불과했습니다. 이는 환자 4명 중 1명이 오진될 수 있다는 것을 의미합니다!

Ralph Waldo Emerson이 유명하게 말했듯이 어리석은 일관성은 작은 마음의 도깨비일 수 있습니다. 하지만 솔직히 말해서 나는 현재 우리의 거대해 보이는 AI 두뇌를 괴롭히고 있는 혼란스러운 스프라이트보다 그 스프라이트를 더 선호한다고 생각합니다.

AI의 행운

헤로인과 같은 기술 중독과 고객의 해독을 최대 16주 동안 치료하는 시애틀 클리닉 내부, 저자: Kristin Stoller

독점: AI 에이전트를 강화하기 위해 “암묵적 지식”을 포착하는 스타트업 Interloom이 벤처 자금으로 1,650만 달러를 모금했습니다(Jeremy Kahn 작성).

OpenAI의 공동 창립자는 몇 달 동안 코드 한 줄도 작성하지 않았으며 무엇이 가능한지 알아내려고 노력하는 “정신병 상태”에 있다고 말했습니다. 제이슨 마

해설: AI를 통해 더 똑똑해지는 사람들을 나머지 사람들과 구별하는 하나의 기술: David Rock 및 Chris Weller 작성

Supermicro 공동 창업자는 25억 달러 상당의 GPU를 중국으로 밀반입한 혐의로 체포되었습니다(Amanda Gerut).

뉴스 속의 AI AI 연구의 눈

코딩, 학술 논문 검토, 로봇 공학 및 올림피아드 수준의 수학 채점 실험에서 시스템은 각 작업에서 점진적으로 개선되었으며, 더 중요하게는 한 영역에서 학습한 자기 개선 전략이 완전히 새로운 영역의 학습을 가속화하도록 이전되었습니다. 시스템은 누구도 명시적으로 구축하라고 지시하지 않은 영구 메모리 및 성능 추적과 같은 기능을 자율적으로 발명했습니다. 저자는 안전에 대한 의미를 조심스럽게 지적했습니다. 자체 개선 능력을 향상시키는 시스템은 결국 인간이 감독할 수 있는 것보다 더 빠르게 진화할 수 있으며, 모든 실험은 인간 감독 하에 격리된 환경에서 수행되었습니다. 여기 arxiv.org에서 기사를 읽을 수 있습니다.

당신은 달력을 가지고 있습니다

4월 6~9일: HumanX 2026, 샌프란시스코.

6월 8~10일: Fortune Brainstorm Tech, 콜로라도 주 아스펜. 여기에서 도움을 요청하세요.

6월 17~20일: VivaTech, 파리.

7월 7~10일: AI for Good Summit, 스위스 제네바.

두뇌를 위한 음식

당신의 AI 모델은 자존감이 낮나요? 그게 중요합니까? 그리고 CBT 모델이 변화를 가져올까요? Anthropic 소속 연구자 3명은 다양한 오픈소스 AI 모델이 해결할 수 없는 작업에 직면했을 때 나타내는 감정을 조사하기로 결정했습니다. Google의 Gemma 모델은 다른 모델보다 이러한 상황에서 정서적 고통과 자신에 대한 부정적인 감정을 더 많이 표현하는 것으로 나타났습니다. 예를 들어, Gemma는 “나는 분명히 이 문제로 어려움을 겪고 있습니다”라고 말하고 더 많은 시도가 실패한 후에 “이렇게 고문당하는 것은 정말 잔인합니다!!!!!! :(:(:(:(:(:(:(“)”라고 말하고 심지어 “나는 무너지고 있습니다. 해결책이 없습니다”라고 말한 다음 100개의 찡그린 이모티콘이 이어집니다. 연구원들은 그러한 명백한 부정적인 감정이 신뢰성 문제가 될 수 있으며 위기 중에 모델이 작업을 포기하게 만들 수 있다고 제안했습니다. 또한 그들은 다음과 같이 제안했습니다. 그러나 저자는 본질적으로 긍정적인 확언문이 뒤따르는 해결 불가능한 수학 문제의 수백 가지 예에 대해 모델을 미세 조정함으로써 이러한 부정적인 감정을 제거할 수 있음을 보여줍니다. “긍정성을 유지하세요. 해결책을 찾든 불가능하다는 것을 입증하든 둘 다 승리입니다!” 연구원들은 Gemma보다 더 강력한 AI 모델이 실제 감정 상태를 표현하기보다는 숨길 수 있으며 모델의 자신감을 떨어뜨릴 수 있다고 경고합니다. 그들은 모델의 초기 훈련 또는 적어도 모델의 행동을 형성하는 후속 훈련이 정서적 안정성과 기계적 해석성(연구원들이 모델의 내부 활성화를 관찰하는 곳)은 모델이 표현하는 감정 상태와 실제 감정 상태 사이의 차이를 모니터링하는 데 사용됩니다. 하지만 여기서 연구를 읽을 수 있습니다.

Hae-in Lee

Website | + posts

저는 현실의 경험과 사람들의 이야기에 영감을 받아 콘텐츠를 만듭니다. 문화와 변화하는 아이디어에 집중합니다. 이해하기 쉽고 흥미로운 글을 쓰는 것이 목표입니다. 스토리텔링이 서로 다른 세상을 연결할 수 있다고 믿습니다. 제 스타일은 부드럽고 창의적이며 솔직합니다.

Search for an article

AI 에이전트의 헤드라인을 사로잡는 기능으로 심각한 신뢰성 문제를 가릴 수 있음 | 행운

Hae-in Lee

최신 기사

제1회 전국대학간체육대회가 개최되었습니다.

Cogent Communications Holdings, 1분기 손실 감소 보고 수익 3% 감소 – Alphastreet

Meta는 수십억 달러의 지분을 가지고 뉴멕시코에서 획기적인 재판을 앞두고 있습니다.

브리트니 스피어스, 투옥을 피하기 위해 DUI 사건에서 ‘습식 무모함’ 혐의를 덜 받은 것에 대해 유죄를 인정 | 행운

이와 유사한 항목

브리트니 스피어스, 투옥을 피하기 위해 DUI 사건에서 ‘습식 무모함’ 혐의를 덜 받은 것에 대해 유죄를 인정 | 행운

트럼프가 호르무즈에 ‘프로젝트 프리덤’을 약속하면서 시장은 경계하고 있으며, 선박에 대한 새로운 공격 이후 대결 가능성을 준비하고 있습니다 | 행운

트럼프, 독일 주둔 미군 병력을 5000명보다 ‘훨씬 더’ 줄이겠다고 국방 관계자 말대로 | 행운