복잡한 문제 해결의 도전 대형 언어 모델(LLM)은 특히 복잡한 추론 작업을 수행할 때 사실적 및 논리적 오류가 발생하기 쉽습니다. 이를 해결하기 위해 연구자들은 일반적으로 검증기 또는 보상 모델을 사용하여 LLM이 생성한 여러 응답 중에서 가장 정확한 답변을 평가하고 선택합니다. 최근 구글 딥마인드, 토론토 대학교, 밀라, UCLA의 연구자들은 LLM의 생성 능력을 활용하여 더 효과적인 검증기를 만드는 새로운 접근 방식인 GenRM을 소개했습니다. GenRM은 현재의 검증 방법이 실패하는 LLM 응용 프로그램에 대한 실용적인 도구가 될 수 있습니다. GenRM의 혁신적인 접근 방식 LLM의 정확도를 높이는 일반적인 방법 중 하나는 여러 후보 답변을 생성하고 별도의 구성 요소를 사용하여 최상의 답변을 선택하는 것입니다. 그러나 이 방법은 신뢰할 수 있는 검증기나 보상 모델이 필요합니다. GenRM은 다음 토큰 예측을 통해 검증기를 훈련시켜 LLM의 텍스트 생성 능력을 활용하는 방식으로, 기존의 보상 모델이 가진 한계를 극복하는 새로운 방법을 제시합니다. 딥마인드의 Rishabh Agarwal 연구원은 “전통적인 보상 모델은 LLM의 본질적인 텍스트 생성 능력을 활용하지 못했다”고 설명합니다. GenRM의 성능 평가 GenRM은 여러 추론 작업에서 효과성을 평가하기 위해 테스트되었습니다. 연구자들은 GenRM을 표준 접근 방식과 비교했으며, 모든 작업에서 GenRM이 CoT(Chain-of-Thought)를 사용하여 다른 방법들보다 몇 퍼센트 포인트 이상 일관되게 우수한 성능을 보였습니다. 특히 GSM8K 수학 추론 벤치마크에서 GenRM을 위한 Gemma-9B 모델은 92.8%의 문제를 해결하여 GPT-4와 Gemini 1.5 Pro의 성능을 초과했습니다. 이 연구는 GenRM이 솔루션 생성과 검증을 통합함으로써 모든 작업에서 검증 성능이 향상된다고 강조합니다. 미래의 가능성 GenRM은 고품질 데이터의 필요성을 강조하며, 인간을 활용한 데이터 생성 외에도 합성 LLM 생성된 비판을 사용할 수 있는 더 확장 가능한 옵션을 제시합니다. 향후 GenRM은 개방형 생성 작업에서 합성 검증 근거를 확장하고, 강화 학습 파이프라인에 통합될 가능성이 있습니다. GenRM의 발전은 LLM 응용 프로그램 개발자에게 정확성과 계산 비용 간의 균형을 맞출 수 있는 더 많은 유연성을 제공할 것입니다.
“이 새로운 접근 방식이 LLM의 가능성을 얼마나 더 확장할 수 있을지 기대됩니다! AI의 미래가 더 밝아질 것 같아요!”