대형 언어 모델(LLM)이 복잡한 작업에서 점점 더 효과적으로 변하고 있지만, 여전히 첫 시도에서 정답을 찾지 못하는 경우가 많습니다. 그래서 LLM이 자신의 실수를 찾아 교정할 수 있도록 하는 ‘자체 교정’에 대한 관심이 커지고 있습니다. 하지만 현재의 자체 교정 시도는 한계가 있으며, 실제 상황에서 자주 충족되지 않는 요구 사항이 있습니다.
구글 딥마인드의 혁신: SCoRe
구글 딥마인드의 연구진은 새로운 논문에서 강화 학습을 통한 자체 교정(Self-Correction via Reinforcement Learning, SCoRe)을 소개했습니다. 이 기법은 자체 생성 데이터를 사용하여 LLM의 자체 교정 능력을 크게 향상시킵니다. SCoRe는 LLM을 더 견고하고 신뢰할 수 있게 만들 수 있는 도구로, 추론 및 문제 해결 능력을 향상시키는 새로운 가능성을 열어줍니다.
“자체 교정은 인간의 사고를 크게 향상시키는 능력입니다,”라고 구글 딥마인드의 연구 과학자 아비랄 쿠마르는 VentureBeat에 말했습니다. “인간은 종종 더 많은 시간을 들여 여러 가지 아이디어를 시도하고 실수를 교정하여 어려운 문제를 해결합니다. 우리는 LLM도 동일한 작업을 수행할 수 있기를 원합니다.”
SCoRe의 작동 원리
이상적으로는 강력한 자체 교정 능력을 가진 LLM이 자신의 답변을 검토하고 수정하여 올바른 응답에 도달할 수 있어야 합니다. LLM은 내부적으로 문제를 해결하는 데 필요한 지식을 가지고 있지만 처음 응답을 생성할 때 이를 효과적으로 사용하지 못하는 경우가 많습니다. 구글 딥마인드의 연구진은 기존의 접근법이 외부 피드백이나 ‘오라클’에 의존하는 반면, SCoRe는 자체 생성 데이터를 사용하여 모델의 자체 교정 능력을 향상시킨다고 밝혔습니다.
SCoRe의 성능 평가
딥마인드의 연구진은 수학 및 코딩 작업을 중심으로 SCoRe를 기존 방법과 비교 평가했습니다. 그 결과, SCoRe는 Gemini 1.0 Pro 및 1.5 Flash 모델의 자체 교정 능력을 크게 향상시켰으며, MATH 벤치마크에서 15.6%의 절대적인 향상을, HumanEval 벤치마크에서 9.1%의 향상을 기록했습니다. 특히 모델이 처음부터 두 번째 시도까지 실수를 교정하는 능력에서 가장 큰 개선을 보였습니다.
SCoRe는 또한 추론 시간 확장 전략과 결합할 때 매우 효율적임이 입증되었습니다. 동일한 추론 예산을 여러 교정 라운드에 걸쳐 분할함으로써 SCoRe는 추가적인 성능 향상을 가능하게 했습니다.
이 논문은 주로 코딩 및 추론 작업에 초점을 맞추고 있지만, 연구진은 SCoRe가 다른 응용 분야에서도 유용할 수 있다고 믿고 있습니다. “모델이 잠재적으로 안전하지 않은 출력을 검토하고 사용자에게 보여주기 전에 스스로 개선할 수 있도록 가르치는 것을 상상할 수 있습니다,”라고 쿠마르는 말했습니다.
연구진은 이 작업이 LLM 훈련에 대한 더 넓은 의미를 가지고 있으며, 입력을 출력으로 단순히 매핑하는 대신 모델이 스스로 추론하고 교정하는 방법을 가르치는 것의 중요성을 강조한다고 믿고 있습니다.
자세한 내용은 VentureBeat 기사에서 확인하세요.