AI

구글 딥마인드, 새로운 벤치마크로 LLM 정확성 향상

사실성 향상과 환각 감소

구글 딥마인드가
새로운 벤치마크를
도입했다는 소식이다.
이번 벤치마크는
대규모 언어 모델
(LLM)의 사실성을
향상시키고 환각
문제를 줄이기 위해
고안되었다고 한다.🧠

LLM이 복잡한
작업을 수행할 때나,
사용자가 특정
세부 정보를 찾을 때
사실과 다른
응답을 제공하는
문제가 발생한다.
이 문제를 해결하기
위해 구글 딥마인드
연구진은 FACTS
Grounding이라는
새로운 벤치마크를
소개했다.

FACTS Grounding

이 벤치마크는
LLM이 긴 문서를
기반으로 사실적으로
정확한 응답을
생성할 수 있는지를
평가한다.
또한 응답이
충분히 상세하여
유용하고 관련성 있는
답변을 제공할 수
있는지 여부도
평가한다.📊

카글(Kaggle) 데이터
사이언스 커뮤니티에
FACTS 리더보드가
공개되었다.
현재 Gemini 2.0
Flash가 83.6%의
사실성 점수로
리더보드에서
1위를 차지하고 있다.

모델 평가와 목표

연구진은 “이 벤치마크가
사실성에 관한
모델 행동을
평가하는 데
있어 중요한
역할을 할 것이라
믿는다”고 밝혔다.

모델들은 주어진
문서를 처리하여
포괄적이고 문서에
완전히 근거한
응답을 생성해야
‘정확’하다고
평가된다.

미래를 위한 발전

연구진은 특히
모델의 편향성을
줄이기 위해 다양한
판단 기준을
결합했다고
강조했다.

이들은 “사실성과
근거는 LLM의
미래 성공과
유용성의 핵심
요소”라며,
“포괄적인 벤치마킹
방법과 지속적인
연구 개발이 AI
시스템을 개선할 것”이라고
덧붙였다.🔍

출처: VentureBeat

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다