AI 부하 직원을 관리하면 예의 바르게 행동하는 것보다 더 나은 결과를 얻을 수 있지만 그렇다고 무례한 말투가 장기적인 결과를 가져오지 않는다는 의미는 아니라고 연구자들은 말합니다.
Penn State의 연구에 따르면 ChatGPT의 4o 모델은 연구자의 프롬프트가 거칠어짐에 따라 50개의 객관식 질문에 대해 더 나은 결과를 제공하는 것으로 나타났습니다.
공손함과 무례함을 기준으로 정렬된 250개 이상의 고유한 메시지에서 ‘매우 무례함’ 응답은 84.8%의 정확도를 반환했으며, 이는 ‘매우 공손함’ 응답보다 4% 포인트 더 높습니다. 본질적으로, LLM은 연구원들이 “다음 질문을 알아낼 수 있도록 친절하게 대해주실 수 있나요?”라고 말하는 것보다 “이봐 심부름꾼, 이것 좀 알아내세요”와 같은 지시를 내릴 때 더 잘 반응했습니다.
일반적으로 무례한 반응이 더 정확한 반응을 만들어내는 반면, 연구원들은 “무례한 발언”이 의도하지 않은 결과를 초래할 수 있다고 지적했습니다.
연구진은 “인간-AI 상호작용에서 모욕적이거나 모욕적인 언어를 사용하는 것은 사용자 경험, 접근성, 포용성에 부정적인 영향을 미칠 수 있으며 유해한 의사소통 규범에 기여할 수 있다”고 썼다.
챗봇이 방을 읽습니다.
동료 검토를 거치지 않은 예비 연구는 문장 구조뿐만 아니라 어조도 AI 챗봇의 반응에 영향을 미친다는 새로운 증거를 제시합니다. 이는 또한 인간과 AI 사이의 상호 작용이 이전에 생각했던 것보다 더 미묘하다는 것을 나타낼 수도 있습니다.
AI 챗봇의 행동에 대해 수행된 이전 연구에서는 챗봇이 인간이 먹이는 것에 민감하다는 사실이 밝혀졌습니다. 한 연구에서 펜실베니아 대학의 연구자들은 인간에게 효과적인 설득 기술을 적용하여 LLM을 조작하여 금지된 응답을 제공했습니다. 또 다른 연구에서 과학자들은 LLM이 장기간 지속되는 인지 저하의 한 형태인 “뇌 부패”에 취약하다는 사실을 발견했습니다. 그들은 품질이 낮은 바이러스 콘텐츠를 지속적으로 섭취했을 때 정신병과 나르시시즘의 비율이 더 높았습니다.
Penn State 연구원들은 상대적으로 작은 응답 표본 크기와 주로 하나의 AI 모델인 ChatGPT 4o에 대한 연구가 의존하는 등 연구의 몇 가지 한계를 지적했습니다. 연구원들은 또한 더 발전된 AI 모델이 “어조 문제를 무시하고 각 질문의 본질에 집중할 수 있다”고 말했습니다. 그러나 이 연구는 AI 모델과 그 복잡성 뒤에 점점 더 많은 흥미를 불러일으키고 있습니다.
이는 특히 객관식 테스트와 같은 간단한 구조가 주어진 경우에도 ChatGPT 응답이 프롬프트의 사소한 세부 사항에 따라 달라지는 것을 발견했기 때문에 특히 그렇습니다. 전기 및 컴퓨터 공학 학위를 보유한 Penn State Information Systems 교수인 Akhil Kumar는 말했습니다.
이 이야기의 버전은 2025년 10월 30일 Fortune.com에 게재되었습니다.
AI에 대한 추가 정보:
