Appleの研究者が、大規模言語モデル(LLM)の限界に焦点を当てた研究を発表した。LLMの真の論理的推論は脆弱であり、異なる例や表現を用いて同じ質問をするとモデルの反応の仕方に「顕著なばらつき」があると結論付けた。
彼らが特に分析したのが、数学におけるLLMの形式的推論能力だ。
小学校レベルの問題を用いてモデルの数学的推論を評価するGSM8Kが広く使用されているが、そのベンチマークが近年大幅に改善していることに研究者たちは注目した。それでも、数学的推論能力が進歩したかどうかは不明であり、報告された計測の信頼性に疑問が投げかけられてきた。
そこで、モデルを評価するために、研究者たちは最先端のオープンモデルとクローズドモデルを多数使用して大規模研究を行い、評価における制約の克服を目的としたGSM-Symbolicを導入した。これは、「多様な組み合わせの質問の作成を可能にするシンボリックテンプレートによって作り出された改良型のベンチマーク」である。
研究者らはモデルの数学的推論に脆弱性を発見し、質問内の節の数が増えるにつれてモデルのパフォーマンスが大幅に低下することを発見した。
記事原文はこちら(『mobihealthnews』2024年10月18日掲載)
※記事公開から日数が経過した原文へのリンクは、正常に遷移しない場合があります。ご了承ください。
Comments are closed.