「データは21世紀の石油」と言われている。この意味は、
・データはデジタル経済を回す燃料となった
・20世紀のTOP企業は石油会社、21世紀には(データを持っている)ビッグテック
の2通りがある。私としては、前者の意見に近い。「汲めども尽きぬ石油で儲けてきたがそれも限界があり、いくら使っても無くならず増え続けるデジタルデータに期待を寄せた」と言い換えてもいいと思う。いくらでもコピーでき、使えば使うほど新しいデータを生み出すので、無限のエネルギー源のように考えていたのだ。しかし、ちょっと気になる記事が出た。
AIにAI生成データを学習させると壊れる可能性が明らかに | ギズモード・ジャパン (gizmodo.jp)
DATA Driven Economy の象徴のようなAIだが、AIがAIで生成したデータを学習すると変調をきたすというのだ。
AIへの反発から、データのクローリングを禁止するサイトが増えてきて、AIで利用できる優良データが急速に減っていること(*1)は聞いていた。しかし、上記の記事の提示した問題が、これとは違う次元のもの。いくらでも再生産できると思っていた前提が崩れるのだ。新たにクローリングできなくても、これまでのデータの再生産でカバーできる・・・わけではないのだ。
まだこの(AIが壊れる)仮説は実証されていないと思うが、気になる点がないわけではない。例えば生物学で言う「近親交配」。近い遺伝子同士で交配をくり返すと、劣性遺伝子が重なることで通常発症しない症状をきたすというものだ。
昔からAIを歪める手段として、偏ったか誤ったデータを喰わせることは知られている。それを意図せずとも、AI出力データをAIに喰わせると、同様のことが起きてしまうのだ。AI開発の戦術級対策としては、AI出力データに共通の符号をつけ、極力AIに入力しないこと。しかし戦略的課題として、AIが使えるデータをどう確保するのか?難しい課題が残っている。
*1:AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に - GIGAZINE