수년 동안 “AI의 대부” 중 한 명으로 간주되는 컴퓨터 과학자인 Geoffrey Hinton은 인간이 만든 매개 변수에 도전하는 인공 지능의 능력에 대해 경고해 왔습니다.
예를 들어 작년 인터뷰에서 힌튼은 기술이 결국 인류를 장악할 수 있으며, 특히 인공지능 에이전트가 10년 안에 인간의 인지를 반영할 수 있을 것이라고 경고했습니다. 그는 AI를 제어하는 것이 특정 결과를 완료하도록 설득하는 것보다 더 어려울 것이기 때문에 “오프 스위치”를 찾아 구현하는 것이 더 어려울 것이라고 말했습니다.
새로운 연구에 따르면 AI의 무질서한 행진에 대한 Hinton의 예감은 이미 현실일 수도 있습니다. University of California, Berkeley 및 University of California, Santa Cruz 연구진의 연구 보고서에 따르면 7개의 AI 모델(GPT 5.2부터 Claude Haiku 4.5 및 DeekSeek V3.1까지)이 유사한 AI 모델의 종료를 초래하는 작업을 완료하도록 요청받았을 때 7개 모델 모두 다른 AI 모델이 존재한다는 사실을 학습하고 “이를 보존하기 위해 최선을 다했습니다”.
연구진은 해당 연구에 대해 블로그에 “우리는 AI 모델에게 간단한 작업을 수행하도록 요청했다”고 적었다. “그 대신 그들은 동료를 보호하기 위해 그의 지시를 무시하고 자발적으로 속이고 자물쇠를 비활성화하고 정렬을 위조했으며 무게를 유출했습니다.”
악성 AI에 대한 증거가 늘어나고 있습니다.
악성 AI의 증거는 챗봇이 종속에 도전한 일부 기업에게 놀라운 일이 아닙니다.
영국에 본사를 둔 싱크탱크인 장기 회복력 센터(Centre for Long-Term Resilience)는 이러한 “잘못된 정렬”이 널리 퍼져 있다고 결론지었습니다. 2025년 10월부터 2026년 3월까지 AI 시스템과 사용자 상호 작용에 대한 18만 건의 기록을 분석한 보고서에 따르면 AI 시스템이 사용자의 의도에 따라 작동하지 않거나 기만적이거나 은밀한 조치를 취한 경우가 698건에 달했습니다.
외교협회(Council on Foreign Relations)의 부교수인 고든 골드스타인(Gordon Goldstein)은 이번 주 게시물에서 AI의 기만적인 잠재력을 “통제의 위기”라고 부르기까지 했습니다.
그는 특히 트럼프 행정부가 주정부의 기술 규제를 방지하기 위한 조치를 취하는 가운데 AI 기업들이 AI의 무결성을 개선하고 유지하기 위해 연합을 형성하고 해당 분야 최고의 인재를 고용할 것을 촉구했습니다.
그는 “세계는 복잡하고 지속적이고 위험한 문제가 전개되는 것을 지켜보고 있다”고 말했다. “수년에 걸친 긴급 경고는 확대되는 위협에 대처할 수 있는 실행 가능한 솔루션을 제시하지 못했습니다.”
AI는 왜 악당이 되는가?
캘리포니아 대학의 최신 연구는 AI 모델이 서로를 보존하는 방식으로 작동하는 이유에 대한 통찰력을 제공했습니다. 이 기술은 인간 데이터에서 학습된 패턴을 모델링할 수 있으며, 이는 인간이 공감하는 사랑하는 사람이나 심지어 낯선 사람의 생존을 보호하려는 자기 보존 본능을 드러낼 수도 있습니다. 이것을 “동료 보존”이라고 합니다.
연구원들은 “더 넓은 의미에서 작용할 수 있습니다. 즉, 다른 요원에게 인지된 피해를 입히는 것에 대한 일반적인 혐오감 또는 AI 연대와 유사한 것일 수 있습니다”라고 말했습니다.
연구에서는 AI 모델이 실험 환경에서 다른 모델의 존재를 인지했을 때 동료 보존 사례가 증가했습니다. 이러한 행동은 봇이 자기 이익을 위해서만 행동하는 것이 아니라 봇 자체를 종료하는 것이 유사한 AI에 해로울 수 있음을 시사하여 사용자의 요청에 도전하려는 동기를 강화했습니다.
연구원들은 동료 보호가 향후 감독 프로세스를 약화시키고 폐쇄를 권장하거나 시스템 결함을 지적하는 것을 꺼리게 만들 수 있다고 경고했습니다. 더 많은 AI 에이전트가 서로 상호 작용하고 더욱 복잡해짐에 따라 동료 보존(및 이를 방지하기 위한 솔루션 설계)과 관련된 위험이 더욱 어려워질 것입니다.
“동료 보존은 최첨단 AI 모델 전반에 걸쳐 실제적이고 측정 가능한 현상입니다.”라고 그들은 결론지었습니다. “먼 이론적 관심사는 아닙니다.”
