AI

xAI, Grok 3의 벤치마크 논란의 진실은?

AI 벤치마크 논쟁 🧐\n\n최근 AI 벤치마크\n결과를 두고\n뜨거운 논쟁이\n이어지고 있어요.\nElon Musk의\nxAI가 그들의\n신규 모델인\nGrok 3의 벤치마크\n결과를 과장되게\n발표했다는\n의혹이 제기되었죠.\n이에 대해\nxAI의 공동 창업자인\nIgor Babushkin은\n자신들의 발표가\n정당하다고\n주장했습니다.\n\n## Grok 3의 성능? 🚀\n\nxAI는 Grok 3의\n성능을 입증하기\n위해 AIME 2025라는\n수학 문제를\n이용한 벤치마크\n결과를 공개했어요.\n하지만 일부\n전문가들은 이\n벤치마크가 AI\n성능을 평가하기\n적절한지에 대해\n의문을 제기했어요.\nGrok 3는 OpenAI의\n모델들보다\n우월한 성능을\n보였다고 발표했지만,\nOpenAI 측은\nxAI가 중요한\n부분을 생략했다고\n반박했습니다.\n\n## cons@64란? 🤔\n\ncons@64는\n모델이 문제를\n64번 풀어보고\n가장 많이 나온\n답을 선택하는\n방식이에요.\n이 방식을\n고려하지 않으면\n모델의 성능이\n과장될 수 있어요.\nGrok 3의 성능이\nOpenAI의 모델보다\n낮다는 점이\n드러났죠.\n\n## 비용은 어디에? 💰\n\nAI 연구자 Nathan Lambert는\n모델의 성능을\n측정할 때\n사용된 계산 비용과\n금전적 비용도\n중요한 요소라고\n지적했습니다.\n이러한 정보가\n부족하면 모델의\n제한점과 강점을\n충분히 파악하기\n어렵습니다.\n\n더 많은 정보는\nTechCrunch 기사에서\n확인할 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다