벤치마크 - 큐브 뉴스

xAI, Grok 3의 벤치마크 논란의 진실은?

2025/02/24

AI 벤치마크 논쟁 🧐\n\n최근 AI 벤치마크\n결과를 두고\n뜨거운 논쟁이\n이어지고 있어요.\nElon Musk의\nxAI가 그들의\n신규 모델인\nGrok 3의 벤치마크\n결과를 과장되게\n발표했다는\n의혹이 제기되었죠.\n이에 대해\nxAI의 공동 창업자인\nIgor Babushkin은\n자신들의 발표가\n정당하다고\n주장했습니다.\n\n## Grok 3의 성능? 🚀\n\nxAI는 Grok 3의\n성능을 입증하기\n위해 AIME 2025라는\n수학 문제를\n이용한 벤치마크\n결과를 공개했어요.\n하지만 일부\n전문가들은 이\n벤치마크가 AI\n성능을 평가하기\n적절한지에 대해\n의문을 제기했어요.\nGrok 3는 OpenAI의\n모델들보다\n우월한 성능을\n보였다고 발표했지만,\nOpenAI 측은\nxAI가 중요한\n부분을 생략했다고\n반박했습니다.\n\n## cons@64란? 🤔\n\ncons@64는\n모델이 문제를\n64번 풀어보고\n가장 많이 나온\n답을 선택하는\n방식이에요.\n이 방식을\n고려하지 않으면\n모델의

기사 읽기

Ai2, 새로운 오픈소스 모델 Tülu 3 공개! GPT-4o 능가

2025/01/31

Ai2의 새로운 혁신 오늘도 AI 세계는 흥미진진합니다. 이번에 Allen Institute for AI(Ai2)가 새로운 오픈소스 모델, Tülu 3을 공개했습니다.✌️ Tülu 3의 위력 이 모델은 4050억 개의 매개변수를 가지고, OpenAI의 GPT-4o와 맞먹는 성능을 발휘한다고 합니다. 그리고 DeepSeek의 v3 모델을 여러 주요 벤치마크에서 능가한다고 하네요.😲 혁신적인 포스트 트레이닝 기법 Tülu 3의 가장 큰 강점은 포스트 트레이닝 기법입니다. Ai2는

기사 읽기

구글 딥마인드, 새로운 벤치마크로 LLM 정확성 향상

2025/01/12

사실성 향상과 환각 감소 구글 딥마인드가 새로운 벤치마크를 도입했다는 소식이다. 이번 벤치마크는 대규모 언어 모델 (LLM)의 사실성을 향상시키고 환각 문제를 줄이기 위해 고안되었다고 한다.🧠 LLM이 복잡한 작업을 수행할 때나, 사용자가 특정 세부 정보를 찾을 때 사실과 다른 응답을 제공하는 문제가 발생한다. 이 문제를 해결하기 위해 구글 딥마인드 연구진은 FACTS Grounding이라는 새로운 벤치마크를 소개했다. FACTS Grounding

기사 읽기

스타트업

벤치, VC 지원 회계 스타트업의 기막힌 몰락과 극적인 부활

2025/01/05

갑작스러운 위기 2024년 12월 27일, 캐나다의 회계 스타트업 벤치는 모든 것이 무너져 내렸습니다. 벤치는 13년간의 운영 후 갑작스럽게 문을 닫았고, 수백 명의 직원들이 즉시 해고되었습니다. 😱 AI에 대한 과도한 의존 벤치는 AI와 자동화 도구에 의존하여 회계 작업을 간소화하고자 했습니다. 그러나 이 도구들은 제대로 작동하지 않았고, 결국 고객 이탈을 초래했습니다. 😓 CEO의 교체와 전략의 실패 벤치의

기사 읽기

Google Gemini, OpenAI 제치고 1위로! 진짜 실력은?

2024/11/17

Google, AI 세계에 큰 파란을 일으키다 🌍 Google이 실험적 모델로 AI 벤치마크에서 1위를 차지했다고 합니다. 이것은 AI 경쟁에서 큰 전환점을 의미하는데요. 그러나 전문가들은 기존 테스트 방법이 AI의 진정한 능력을 측정하지 못할 수 있다고 경고합니다. Gemini-Exp-1114, 새로운 도전자 “Gemini-Exp-1114″라는 이 모델은 Google AI Studio에서 사용할 수 있으며, Chatbot Arena 순위에서 OpenAI의 GPT-4o와 비슷한 성능을 보였습니다. 6,000명

기사 읽기

H/W

M4 Max MacBook Pro: 실제 사용기

2024/11/14

M4 Max MacBook Pro 애플이 최근 M4 Max 맥북 프로를 선보였어요. M3 Max와 비교해 어떤 성능 차이가 있는지 직접 테스트해봤습니다. 📊 디자인과 디스플레이 외관상으로는 큰 차이가 없어 보이지만, 디스플레이는 더 밝아졌고, 나노 텍스처 옵션도 추가됐어요. 야외에서 일할 때 큰 차이를 느낄 수 있습니다. 포트와 연결성 Thunderbolt 5 포트 덕분에 더 많은 디스플레이를 연결할 수 있고,

기사 읽기

신비로운 이미지 생성 모델 ‘레드 판다’ 등장!

2024/10/29

레드 판다, 이미지 생성의 새로운 강자로 떠오르다 여러분, 들어보셨나요? 최근에 아주 흥미로운 이미지 생성 모델이 등장했습니다. 이름하여 ‘레드 판다’! 🐼 이 모델이 얼마나 대단한지 말씀드릴게요. 레드 판다는 Midjourney, Black Forest Labs, 그리고 OpenAI의 모델들을 모두 제치고 Artificial Analysis 벤치마크에서 최고 순위를 차지했어요. Elo 점수로 측정되는 성능 Artificial Analysis는 체스 선수들의 실력을 비교하는 데 사용되는 Elo

기사 읽기

H/W

애플 M4 칩 성능 최초 공개!

2024/10/08

애플의 새로운 M4 칩, 어디까지 발전했나? 🌟 애플이 곧 11월 초에 첫 M4 맥을 출시할 예정입니다. 이번에 Geekbench에 떠오른 벤치마크 점수를 통해 M4 맥의 성능을 미리 알아볼 수 있게 되었어요. M4 맥과 아이패드 프로 비교 “Mac16,1” 모델은 10코어 CPU를 탑재하고 있으며, 싱글 코어 점수 3864점, 멀티 코어 점수 15288점을 기록했어요. 기본 M4 아이패드 프로는 9코어

기사 읽기

Reflection 70B 논란, 데이터 제공자의 보고서로 이어지다

2024/10/04

Reflection 70B의 발표 2024년 9월 5일, Hyperwrite AI의 공동 창업자이자 CEO인 Matt Shumer가 소셜 네트워크 X를 통해 Meta의 오픈 소스 Llama 3.1-70B를 기반으로 한 대형 언어 모델, Reflection 70B를 발표했습니다. 그는 이 모델이 “세계 최고의 오픈 소스 모델”이라고 주장했죠. 하지만, 발표 직후 여러 연구자들이 이 모델의 성능을 재현하지 못하면서 논란이 일기 시작했습니다. 🤔 성능 논란과

기사 읽기

H/W

AMD 라이젠 AI 맥스 390 스트릭스 할로우 CPU, AI 벤치마크에서 압도적 성능 선보여!

2024/09/24

AMD의 새로운 CPU 등장! 최근 AMD에서 새로운 CPU를 공개했어요. 바로 라이젠 AI 맥스 390 스트릭스 할로우인데요. 이 CPU는 AI 벤치마크에서 눈에 띄는 성과를 보여주고 있어요. 성능이 남다르다 많은 사람들은 이 CPU가 어떤 성능을 발휘할지 궁금해 하죠. AI 연산에서 그야말로 압도적인 성능을 자랑하고 있어요. 벤치마크 결과 벤치마크 결과는 정말 놀라워요! 많은 테스트에서 타의 추종을 불허하는 성능을

기사 읽기