AI가 거짓말 하는 환각의 비밀, 오픈AI가 밝힌 원인과 해결책
인공지능이 대중화되면서 가장 많이 회자되는 단어 중 하나가 환각입니다.
AI가 실제로 존재하지 않는 사실을 마치 진짜인 것처럼 지어내는 현상을 말하는데, 일상적인 예로는 역사 기록에 존재하지 않는 사건을 단정적으로 말하는 경우를 들 수 있습니다. 이러한 환각은 단순히 재미있는 오류처럼 보일 수 있지만, 신뢰성을 저해하는 가장 큰 요인으로 지적되어 왔습니다.

최근 오픈AI가 언어 모델이 환각을 겪는 이유에 대한 연구를 발표하면서 그 원인과 해결 방안에 대한 논의가 새롭게 확산되고 있습니다.
언어 모델은 수많은 데이터를 학습해 질문에 가장 그럴듯한 답을 만들어내도록 설계되어 있습니다. 학습 과정에서 올바른 답을 내놓으면 보상을 받고, 모른다고 답하거나 틀린 답을 내면 보상을 얻지 못하는 구조입니다.
문제는 이 지점에서 발생합니다. 모른다고 솔직히 인정하면 0점을 받지만, 가능한 답을 추측해서 내놓으면 낮은 확률이라도 정답이 될 수 있어 점수를 얻을 가능성이 생깁니다. 사람도 시험에서 객관식 문제의 답을 모르면 찍는 경우가 있듯이, AI 역시 정답률을 조금이라도 높이려는 선택을 하게 되고 이 과정에서 잘못된 정보가 만들어집니다.
오픈AI는 자사 모델을 통해 실험한 벤치마크 결과를 공개했습니다.
최신 모델인 GPT-5 싱킹 미니는 정답률이 22%로 직전 모델보다 낮았지만, 모른다고 답하는 기권 비율이 52%에 달했고 잘못된 답을 내놓는 오류율은 26%였습니다. 직전 모델은 기권 비율이 1%에 불과했고 오류율이 75%에 달했습니다. 정답률만 놓고 보면 직전 모델이 더 높은 수치를 보였지만, 잘못된 답변을 훨씬 많이 내놓은 것입니다.
오픈AI 연구진은 단순히 정답률을 기준으로 모델의 성능을 평가하는 방식이 오히려 환각 문제를 심화시킨다고 지적했습니다.
이 연구의 핵심은 평가 방식의 전환입니다.
잘못된 답을 자신 있게 말하는 경우에는 큰 감점을 주고, 모른다고 인정하는 경우에는 부분 점수를 부여하는 새로운 기준이 필요하다는 것입니다. 이는 AI의 훈련 과정에서 정직하게 모른다고 답하는 능력을 강화하도록 유도하는 방식입니다. 현재의 방식은 ‘아는 척’을 장려하는 구조이기 때문에 환각을 부추기고 있습니다.
인간 사회에서도 자신이 모른다는 사실을 드러내기보다 아는 척을 하는 것이 일반적이지만, 이런 태도는 오히려 오류를 키우고 신뢰를 잃게 만든다는 점에서 AI와 사람의 학습 방식이 닮아 있는 셈입니다.
AI 환각은 단순한 기술적 문제를 넘어 사회 전반에 중요한 영향을 미칠 수 있는 사안입니다. 잘못된 답이 의료, 금융, 법률과 같은 전문 영역에서 제공될 경우, 결과적으로 심각한 피해가 발생할 수 있습니다.
AI가 스스로 모른다고 판단할 수 있는 능력을 강화하는 것은 안전성과 신뢰성을 높이는 핵심 조건입니다. 앞으로 AI가 발전해 가는 과정에서 성능 향상과 함께 윤리적이고 안전한 작동 방식을 어떻게 확립할 것인지가 중요한 과제가 될 것입니다. 오픈AI가 제안한 방식은 그 과정에서 중요한 전환점이 될 수 있으며, 인간과 기계가 서로 닮은 점을 다시금 생각하게 합니다.
출처: ChatGPT,조선일보