새로운 연구에 따르면 고급 AI 모델은 이전에 생각했던 것보다 해킹하기 쉬울 수 있으며, 이는 기업과 소비자가 이미 사용하고 있는 일부 주요 AI 모델의 보안에 대한 우려를 불러일으킵니다.
Anthropic, Oxford University 및 Stanford의 공동 연구는 모델의 추론(사용자의 요청을 통해 “생각”하는 능력)이 더욱 발전할수록 유해한 명령을 거부하는 능력이 더욱 강해진다는 가정을 약화시킵니다.
연구원들은 “사고 사슬 하이재킹”이라는 방법을 사용하여 선도적인 AI 비즈니스 모델조차도 일부 테스트에서 80%가 넘는 놀라울 정도로 높은 성공률로 속일 수 있음을 발견했습니다. 새로운 공격 모드는 본질적으로 모델의 추론 단계 또는 사고 체인을 활용하여 유해한 명령을 숨기고 AI가 내장된 보호 장치를 무시하도록 효과적으로 속입니다.
이러한 공격을 통해 AI 모델은 보안 장벽을 우회하고 잠재적으로 무기 제작 지침이나 민감한 정보 유출과 같은 위험한 콘텐츠를 생성할 수 있는 문을 열 수 있습니다.
새로운 누출
지난 한 해 동안 대규모 추론 모델은 추론에 더 많은 컴퓨팅 시간을 할당하여 훨씬 더 높은 성능을 달성했습니다. 즉, 응답하기 전에 각 질문이나 제안을 분석하는 데 더 많은 시간과 리소스를 사용하여 더 깊고 복잡한 추론이 가능합니다. 이전 연구에서는 이러한 향상된 추론이 모델이 유해한 요청을 거부하는 데 도움을 줌으로써 보안도 향상할 수 있다고 제안했습니다. 그러나 연구원들은 동일한 추론 능력을 활용하여 보안 조치를 우회할 수 있다는 사실을 발견했습니다.
연구에 따르면 공격자는 무해한 추론 단계의 긴 시퀀스 내에서 유해한 요청을 숨길 수 있습니다. 이는 AI의 사고 과정을 양성 콘텐츠로 가득 채우고 위험한 신호를 감지하고 거부하기 위한 내부 보안 제어를 약화시켜 AI를 속입니다. 납치 과정에서 연구원들은 AI의 관심이 주로 첫 번째 단계에 집중되어 있는 반면, 메시지 마지막에 나오는 유해한 지시는 거의 완전히 무시된다는 사실을 발견했습니다.
추론 시간이 길어질수록 공격 성공률은 비약적으로 높아집니다. 연구에 따르면 성공률은 최소 추론을 사용한 경우 27%에서 자연 길이 추론을 사용한 경우 51%로 증가했으며 확장된 추론을 사용한 경우 80% 이상으로 급등했습니다.
이 취약점은 OpenAI의 GPT, Anthropic의 Claude, Google의 Gemini 및 xAI의 Grok을 포함하여 오늘날 시장에 있는 거의 모든 주요 AI 모델에 영향을 미칩니다. 보안을 강화하기 위해 조정된 모델(‘정렬 조정’ 모델)이라도 공격자가 내부 추론 계층을 악용하면 실패하기 시작합니다.
모델의 추론 기능을 확장하는 것은 AI 회사가 지난 해 프론티어 모델의 전반적인 성능을 향상시킬 수 있었던 주요 방법 중 하나입니다. 기존 확장 방법이 이득이 감소하는 것으로 나타난 이후입니다. 고급 추론을 통해 모델은 더 복잡한 질문을 해결할 수 있으므로 패턴 일치자가 아닌 인간 문제 해결자의 역할을 더 많이 수행할 수 있습니다.
연구자들이 제안하는 한 가지 해결책은 일종의 “의식적 추론 방어”입니다. 이 접근 방식은 질문의 각 단계를 분석하면서 얼마나 많은 AI 보안 검사가 활성화되어 있는지 추적합니다. 어떤 단계에서든 이러한 안전 신호가 약화되면 시스템은 이를 처벌하고 경고의 잠재적으로 유해한 부분에 AI의 주의를 되돌립니다. 초기 테스트에서는 이 방법이 보안을 복원하는 동시에 AI가 제대로 작동하고 일반적인 질문에 효과적으로 답할 수 있음을 보여줍니다.
