AI

알리바바, 마르코-o1 공개! 한층 발전된 추론 능력의 LLM

알리바바와 마르코-o1의 등장 🚀

OpenAI의 o1 모델 이후로
큰 주목을 받은 대규모
추론 모델(LRM)들이
속속 등장하고 있습니다.
알리바바는 이번에
새로운 모델 마르코-o1을
소개하며 이 흐름에 합류했죠.

마르코-o1은 복잡한 문제를
해결하는 데 있어 탁월한
추론 능력을 발휘합니다.
기존의 언어 모델들이
어려움을 겪었던 문제들을
뛰어넘을 수 있도록 설계되었어요.

마르코-o1의 주요 특징 ✨

마르코-o1은 알리바바의
Qwen2-7B-Instruct 모델을
기반으로 한정밀 튜닝된
버전입니다. 체인 오브
생각(Chain-of-Thought)
튜닝과 몬테카를로 트리 검색(MCTS),
추론 액션 전략을 통합했죠.

이 모델은 다양한 데이터셋을
사용하여 학습되었으며, 특히
MCTS는 복잡한 문제 해결에
효과적입니다. 이 알고리즘은
다양한 솔루션 경로를 탐색하며
결정 트리를 구축합니다.

활용과 성능 평가 🏆

마르코-o1은 MGSM 벤치마크에서
기존 모델보다 뛰어난 성능을
보였습니다. 특히 MCTS를
단일 토큰 단위로 조정했을 때
그 효과가 두드러졌습니다.

또한, 마르코-o1은 속어 번역
같은 언어의 미묘한 뉘앙스를
이해하는 데도 탁월한 능력을
발휘했습니다. 예를 들어,
중국어의 속어 표현을 정확히
영어로 번역했죠.

AI 업계의 경쟁 심화

최근 AI 연구소들은
추론 모델을 앞다투어
출시하고 있습니다.
중국의 AI 연구소 DeepSeek은
R1-Lite-Preview를 출시하며
경쟁에 뛰어들었습니다.

오픈 소스 커뮤니티 역시
추론 모델 시장에 발맞추어
발전하는 중입니다. 알리바바
팀은 마르코-o1을 Hugging Face에
공개하며 연구자들이
사용할 수 있는 데이터셋을
제공하고 있습니다.

미래의 모델 스케일링 법칙에
대한 불확실성이 존재하지만,
추론 시간 스케일링의
가능성을 탐구하는
시작 단계인 것은 확실합니다.

출처: VentureBeat

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다