AI 산업의 열풍, Chatbot Arena의 진짜 모습은?

최근 몇 달간, AI 산업에서
Chatbot Arena라는 벤치마크가
가장 많은 화제를 모으고 있어요.
이 벤치마크는 LMSYS라는 비영리 단체가
유지 관리하고 있죠.

엘론 머스크와 같은 유명한
기술 경영자들이
자신의 AI 모델 성능을
Chatbot Arena에 기반하여
자랑하고 있는데요.

LMSYS는 작년 4월에
카네기 멜론 대학교,
UC 버클리의 SkyLab,
UC 샌디에이고의 교수 및 학생들에 의해
설립된 비영리 단체입니다.

이들의 목표는
생성 모델을 더 쉽게 접근할 수 있도록
하고, 오픈 소스로 만드는 것이었어요.
하지만 AI 벤치마크에 대한
불만이 커지면서
자체적인 테스트 도구를 만들게 됩니다.

Chatbot Arena는
웹 사용자들이 두 개의
익명의 모델에 질문하고,
답변을 비교할 수 있게 해줍니다.
사용자는 마음에 드는 답변에 투표하고,
모델의 정체가 공개되죠.

이렇게 수집된 데이터는
모델의 성능을 평가하는 데
사용됩니다. 하지만 과연
이 방식이 얼마나 신뢰할 수 있을까요?

AI 연구자들 사이에서는
이 벤치마크가
모델의 진정한 능력을
잘 반영하지 않는다는
의견이 있습니다.

사람마다 선호하는 답변 스타일이 다르기 때문에,
같은 질문에 대해
서로 다른 투표 결과가 나올 수 있어요.

Chatbot Arena는
모델의 성능을 평가하는 데
유용한 도구일 수 있지만,
결국 사용자의 선호에 따라
결과가 달라질 수 있다는 점을
명심해야 합니다.

이 벤치마크는
모델의 지능을 측정하는
결정적인 기준이 아니라,
사용자 만족도를 측정하는
도구로 보는 것이 맞습니다.