AI 모델 부정확한 응답 '환각률' 0%대 기록
구글과 오픈AI가 올해 내놓은 최신 인공지능(AI) 모델이 역대 최초로 환각률 0%대를 기록했다고 합니다.

환각은 AI 모델이 잘못되거나 부정확한 답을 생성하는 것을 의미하는데, 이제는 AI가 100개의 질문 중 99개 이상에 옳은 답을 제공하는 수준으로 발전한 것입니다. AI 모델의 환각 현상을 이유로 AI 활용을 주저하던 법률 등 전문 분야의 AI 도입이나 AI 에이전트 시장에도 보다 속도가 날 것으로 보입니다.
미국 AI 스타트업 벡타라의 환각률 벤치마크(HHEM)에 따르면 구글이 지난 5일 출시한 제미나이 2.0 제품군이 환각률 0.7%를 기록하며 그동안 공개된 모든 상용 모델 중 가장 낮은 환각률을 기록했습니다.
오픈AI가 지난달 선보인 소형 추론 특화 모델 o3 미니 하이는 환각률 0.8%를 기록하며 제미나이 2.0에 앞서 최초로 1% 미만에 진입하였습니다. 해당 벤치마크서 0%대를 기록하고 있는 것은 두 기업뿐입니다.
해당 벤치마크는 특정 문서를 AI에 준 후에 그 답변 성능을 분석하는 방식입니다. 모든 경우의 환각을 측정하지 못하는 한계가 있으나, AI의 추론 정확도가 빠르게 개선되는 추이는 볼 수 있습니다.
환각률이 0%대에 진입했다는 것은 그만큼 AI가 이제 실수할 확률이 빠르게 개선되고 있음을 의미합니다.
AI 모델 사용 초기에는 이같은 환각 현상이 상대적으로 심했으나 모델에 대한 사후 학습이 강화되고, 문서 해석 중 AI가 맥락을 놓치는 문제 등도 해결이 되면서 꾸준히 환각률도 개선되어 왔습니다. 오픈AI의 경우 o3의 이전 모델인 o1에서는 2.4%의 환각률을 기록했는데, o3에서는 1.6%포인트만큼 환각률을 개선하였습니다.
환각률이 꾸준히 개선되면서 자연스럽게 AI 모델에 대한 신뢰성은 계속 상승할 것으로 보고 있습니다. 이는 답변을 넘어 AI가 보다 많은 행동을 수행하도록 하는 에이전트 서비스의 활성화 흐름과도 연결됩니다.
판례를 분석하고 법률 자문을 해주는 법률 에이전트나 보험 상품 관련 업무를 응대하는 보험 에이전트 등 실수가 용납되지 않은 영역에서의 AI 활용도 늘어날 수 있습니다.
오픈 AI는 이같은 추론 성능을 바탕으로 마치 연구원같이 리서치 능력에 특화된 ‘딥 리서치’ 기능을 이달 선보였습니다. 또한 세일즈포스의 경우 재무, 뱅킹, 영업, 커머스 등 다양한 산업 영역에 특화된 AI 에이전트 ‘에이전트포스’를 지난해 하반기부터 적극 확대하고 있습니다.
최근 저비용으로 고성능 AI를 선보이며 전 세계적으로 주목받고 있는 중국의 딥시크 모델은 거대언어모델(LLM)인 딥시크-v2.5가 2.4%의 환각률을, 추론에 특화한 딥시크-r1은 이보다 높은 14.3%의 환각률을 보여 상대적으로 높은 환각률을 보였습니다.
출처: ChatGPT,매일경제,구글인스타그램