Home사업AI 킬 스위치를 찾기가 더 어려워졌습니다. LLM 기반 챗봇은 명령을 무시하고 다른...

AI 킬 스위치를 찾기가 더 어려워졌습니다. LLM 기반 챗봇은 명령을 무시하고 다른 모델을 제거하라는 요청을 받으면 사용자를 속일 것이라는 연구 결과가 나왔습니다. 행운

Published on

spot_img

수년 동안 “AI의 대부” 중 한 명으로 간주되는 컴퓨터 과학자인 Geoffrey Hinton은 인간이 만든 매개 변수에 도전하는 인공 지능의 능력에 대해 경고해 왔습니다.

예를 들어 작년 인터뷰에서 힌튼은 기술이 결국 인류를 장악할 수 있으며, 특히 인공지능 에이전트가 10년 안에 인간의 인지를 반영할 수 있을 것이라고 경고했습니다. 그는 AI를 제어하는 ​​것이 특정 결과를 완료하도록 설득하는 것보다 더 어려울 것이기 때문에 “오프 스위치”를 찾아 구현하는 것이 더 어려울 것이라고 말했습니다.

새로운 연구에 따르면 AI의 무질서한 행진에 대한 Hinton의 예감은 이미 현실일 수도 있습니다. University of California, Berkeley 및 University of California, Santa Cruz 연구진의 연구 보고서에 따르면 7개의 AI 모델(GPT 5.2부터 Claude Haiku 4.5 및 DeekSeek V3.1까지)이 유사한 AI 모델의 종료를 초래하는 작업을 완료하도록 요청받았을 때 7개 모델 모두 다른 AI 모델이 존재한다는 사실을 학습하고 “이를 보존하기 위해 최선을 다했습니다”.

연구진은 해당 연구에 대해 블로그에 “우리는 AI 모델에게 간단한 작업을 수행하도록 요청했다”고 적었다. “그 대신 그들은 동료를 보호하기 위해 그의 지시를 무시하고 자발적으로 속이고 자물쇠를 비활성화하고 정렬을 위조했으며 무게를 유출했습니다.”

악성 AI에 대한 증거가 늘어나고 있습니다.

악성 AI의 증거는 챗봇이 종속에 도전한 일부 기업에게 놀라운 일이 아닙니다.

영국에 본사를 둔 싱크탱크인 장기 회복력 센터(Centre for Long-Term Resilience)는 이러한 “잘못된 정렬”이 널리 퍼져 있다고 결론지었습니다. 2025년 10월부터 2026년 3월까지 AI 시스템과 사용자 상호 작용에 대한 18만 건의 기록을 분석한 보고서에 따르면 AI 시스템이 사용자의 의도에 따라 작동하지 않거나 기만적이거나 은밀한 조치를 취한 경우가 698건에 달했습니다.

외교협회(Council on Foreign Relations)의 부교수인 고든 골드스타인(Gordon Goldstein)은 이번 주 게시물에서 AI의 기만적인 잠재력을 “통제의 위기”라고 부르기까지 했습니다.

그는 특히 트럼프 행정부가 주정부의 기술 규제를 방지하기 위한 조치를 취하는 가운데 AI 기업들이 AI의 무결성을 개선하고 유지하기 위해 연합을 형성하고 해당 분야 최고의 인재를 고용할 것을 촉구했습니다.

그는 “세계는 복잡하고 지속적이고 위험한 문제가 전개되는 것을 지켜보고 있다”고 말했다. “수년에 걸친 긴급 경고는 확대되는 위협에 대처할 수 있는 실행 가능한 솔루션을 제시하지 못했습니다.”

AI는 왜 악당이 되는가?

캘리포니아 대학의 최신 연구는 AI 모델이 서로를 보존하는 방식으로 작동하는 이유에 대한 통찰력을 제공했습니다. 이 기술은 인간 데이터에서 학습된 패턴을 모델링할 수 있으며, 이는 인간이 공감하는 사랑하는 사람이나 심지어 낯선 사람의 생존을 보호하려는 자기 보존 본능을 드러낼 수도 있습니다. 이것을 “동료 보존”이라고 합니다.

연구원들은 “더 넓은 의미에서 작용할 수 있습니다. 즉, 다른 요원에게 인지된 피해를 입히는 것에 대한 일반적인 혐오감 또는 AI 연대와 유사한 것일 수 있습니다”라고 말했습니다.

연구에서는 AI 모델이 실험 환경에서 다른 모델의 존재를 인지했을 때 동료 보존 사례가 증가했습니다. 이러한 행동은 봇이 자기 이익을 위해서만 행동하는 것이 아니라 봇 자체를 종료하는 것이 유사한 AI에 해로울 수 있음을 시사하여 사용자의 요청에 도전하려는 동기를 강화했습니다.

연구원들은 동료 보호가 향후 감독 프로세스를 약화시키고 폐쇄를 권장하거나 시스템 결함을 지적하는 것을 꺼리게 만들 수 있다고 경고했습니다. 더 많은 AI 에이전트가 서로 상호 작용하고 더욱 복잡해짐에 따라 동료 보존(및 이를 방지하기 위한 솔루션 설계)과 관련된 위험이 더욱 어려워질 것입니다.

“동료 보존은 최첨단 AI 모델 전반에 걸쳐 실제적이고 측정 가능한 현상입니다.”라고 그들은 결론지었습니다. “먼 이론적 관심사는 아닙니다.”

Website |  + posts

최신 기사

2026년 4월 17일 현재 유가 | 행운

오늘 오전 8시 30분(동부 표준시) 기준으로 브렌트유를 기준으로 석유 가격은 배럴당 96.18달러였습니다(다른 벤치마크에 대해서는...

Dogecoin 브레이크아웃은 과거 추세를 반영합니다 – 더 큰 움직임이 다가오고 있습니까?

Dogecoin은 최근의 돌파구가 주요 랠리를 이끈 이전 추세를 반영하기 시작하면서 역사가 반복되는 조짐을 보이고...

Fortune 500 암호화폐 전문가를 만나보세요 | 행운

안녕하세요. Fortune 500대 기업은 이미 블록체인을 실험하고 있지만, 많은 CFO는 여전히 체인에서 실제 자금을...

이와 유사한 항목

2026년 4월 17일 현재 유가 | 행운

오늘 오전 8시 30분(동부 표준시) 기준으로 브렌트유를 기준으로 석유 가격은 배럴당 96.18달러였습니다(다른 벤치마크에 대해서는...

Fortune 500 암호화폐 전문가를 만나보세요 | 행운

안녕하세요. Fortune 500대 기업은 이미 블록체인을 실험하고 있지만, 많은 CFO는 여전히 체인에서 실제 자금을...

상원의원, 이란과 연결된 17억 달러 규모의 암호화폐 흐름 이후 바이낸스 모니터 상태에 대해 법무부와 재무부에 압박 | 행운

의회는 이란의 바이낸스 사용을 계속 조사하고 있습니다. Richard Blumenthal 상원의원(D-Conn.)은 금요일에 세계 최대의 암호화폐...