日本でも先進的なAI利用企業の幹部と、意見交換する機会があった。多数の事業部門や関連会社で自社利用をするだけでなく、自社サービスの中に組み込んでのエンドユーザ提供することもある。積極利用したい反面、万一大事故を起こせば、お客様の被害はもちろん、自社のブランドを損ね、ひいては日本社会のAI利用を遅らせる可能性があると、最初は厳しめにガバナンスしているとのことだった。
悩みはいろいろあるが、まずLLMモデルがたくさん出てきて、どれを選んだらいいか即断できないこと、社内のあちこちで要望が出るが乱立しかねないことを最初に挙げておられた。
生成AIブームを産んだ「Chat GPT」の登場時点では、選択肢は多くなかった。しかし各社・各研究機関が続々独自のLLMモデルを発表し、外部からはどう選択していいか分からなくなった。有料利用が当たり前だったLLMモデルも、新バージョンがでると旧バージョンが値引きや無料になる。最初から無料のモデル「Deep Seek」なども登場した(*1)。写真のように「百花繚乱」の状況にある。
上記のブームで期待が(過剰に)高まり、AIベンチャーに大量の資金が流入したり、関連報道によって株価が高騰するような現象もみられた。ミニバブルなのかもしれない。そこで「LLMモデルを選ぶためのベンチマーク」も登場した。しかしこれも、まだ完成されたものではなくそれ自体の信頼性にも疑問符が付いている。
数多く存在するAIモデルからどれを選べばいい?…ベンチマークは信頼できるのか | Business Insider Japan
の記事にあるように、LLMモデルの選び方、ベンチマークの使い方にもリテラシーが必要なのだ。AIに何を求めるかは、例え同じ企業内でも異なる。求めるものが違えば、ベンチマークの意味も違う。総合的な得点で選ぶのではなく、利用目的にあった部分の評価で選ぶべきだろう。
<続く>