生成AIによる無断学習をどんどん禁止すべき理由|Kenji Suzuki
生成AIによる無断学習をどんどん禁止する<対象>
「生成AIによる無断学習をどんどん禁止」すべき対象の中心は、コンテンツ系の生成AIである。 コンテンツ系生成AIは、学習したコンテンツの種類と同じ種類のコンテンツを出力する。例えば、イラストを学習してイラスト風の何かを生成したり、新聞記事を学習して新聞記事風の何かを生成したり、イラストと写真を学習して実写風のイラストを出力する生成AIは、私の区分では、コンテンツ系である。
生成AIが、内部のデータの持ち方として、情報解析した結果を保持しているのか、学習したコンテンツを多次元で圧縮して保持しているのかにかかわらず、学習と出力の関係として、出力のジャンルが学習コンテンツとおなじジャンルであればコンテンツ系である。
小説を学習して言葉の共起や特徴的な頻度などの情報解析の結果を出力したり、画像を学習したことによる情報解析処理により医療画像から病変を抽出するなどの生成AIの利用は、コンテンツ系ではない(情報解析の出力は学習したコンテンツ市場で競合しない)。 コンテンツ系でなくても、プライバシーその他の理由で無断学習を禁止すべき理由は多々あるが、本稿はコンテンツ系に焦点を当てる。
生成AIによる無断学習をどんどん禁止する<理由>
[理由01] ソーシャル・ライセンスがない
コンテンツ系の生成AIやそのユーザーは、社会的に受容されておらず、炎上も数多い。例えば、生成AIコンテンツの利用、公開や生成AIの仕組みの無理解についての謝罪文が多数公開されている。 コンテンツ系生成AIの出力物の利用は「ソーシャル・ライセンス・トゥ・オペレート」(社会的営業許可)があるとはいえず、そのようなグレーな仕組みに自分の創作物を使われたくないという創作者の意思は尊重されるべきである。
[理由02] 透明性が確保されていない(公正な取引ができない)
生成AIを利用した事実の表示が義務付けられておらず、創作物の受発注や売買に際して、公正な取引を行うための透明性が確保されていない。ストックサイトなど、素性の判らない粗悪品によって市場環境が悪化しており、生成AI明記が守られておらず、真正な手書品の売買が困難になった。
[理由03] 技術検証はできた(ずいぶん無断学習した)
OpenAI、Claude.ai、Geminiなどは、インターネットでアクセスできるあらゆる情報を無断で学習し、大量の学習がどのような技術的な結果をもたらすかを検証するために充分な量をすでに学習した。
[理由04] LLMの提供価値に応じた学習の対価市場の形成
生成AI(LLM)が提供する価値のうち、新しい事実(新聞記事)や新しい絵柄(イラスト)や、コンテンツの知名度に経済価値がある部分は、LLMという技術ではなく、学習対象のコンテンツがもたらす価値であり、生成AIが利用される理由である。 プラットフォーマーの力が不公正に強すぎて実現していないが、コンテンツ系生成AIが利用者に提供している価値に応じて、生成AIへの学習についての対価市場の形成が必要である。学習の対価市場が育成されるには無断学習を禁止しなければならない。
[理由05] 手仕事の価値と大量処理の価値
人間中心の社会は、人間の手仕事(口や足などの身体を含む)の作品を楽しむ社会である。特に日本では手仕事が愛され、国際競争力も高い。コンテンツが輸出産業であるのは、手仕事を大切にする日本文化の伝統である。一方、体系的な構築力が必要なソフトウエアやWebサービスは、外貨を稼げていない。 並行して、デジタル化・インターネットは大量の並列処理を可能とすることで人類に新たな恩恵をもたらしている。弊害もあるが、高齢化社会との関係でも、ジェンダーバイアスを解消し家事負担を均質化していくにも、様々な自動化の利便性を享受していきたい。 田村善之教授は、著作権法30条の4は、著作権法が、インターネットによる大量処理を可能としているという変化の足を引っ張らないという趣旨があると説示する。同時に、大量処理が可能であるならばを示唆している(田村(2024b): 田村善之「AI と著作権法 : 応用編」(2024.11.9, 生成AI時代の情報法と著作権法 | 筑波大学エクステンションプログラム))。 やり方によっては、著作権法の解釈としても、無断学習をどんどん禁止していくことは矛盾しない。
「検索されるのはよいけど学習されるのは嫌だという権利者」の要望も実現できる可能性
生成AIによる無断学習をどんどん禁止する<方法>
インターネットを使いながら、クローラーが大量処理できる形で、無断学習を禁止する意思を表明し、禁止を約束させ、守らせたい。
[標準化01] 学習禁止のルール
クローリングとスニペットは許可するが、生成AIの学習は禁止する、というルールが良い。
robots.txt で、次のような標準をつくる。User-agentとして生成AIを一括指定したい。さらに、Searchのためのクローラーには許可しつつ、Gen-AIのエージェントによるアクセスをディレクトリーごとに禁止したり、この例ではpublic/images/ ディレクトリ内のすべてのjpgファイルの学習を禁止する。
robots.txt
User-agent: *
Disallow: /
Allow: //
User-agent: Gen-AI *
Disallow: //images
#すべてのクローラー
#全体はクローリング不許可
public
#/public/以下はクローリング許可
#Gen-AI関係の全てのクローラー
public
/*.jpg #/public/images/内のすべてのjpgファイルは学習不可
このように、対象とするクローラー(エージェント)、対象のディレクトリー、対象のファイルタイプを特定し、許可又は不許可を明示する、程度の簡易な記述で、かつ、現状のクローラーの処理はなんら変更しなくて良いような標準化が考えられる。
[標準化02] 標準にする圧力
まず、学習禁止の標準とする案を定め、公開する。そして、プラットフォーマーや生成AI事業者に、学習禁止標準の受入の可否を回答させる(透明性要件)。 ネズミが猫に鈴をつけようというような、夢のような提案ではあるが、私たちは、次のような多面的な圧力をかけていくことができる。
圧力1 [契約] イラストレーターが、イラスト作成に向けた個別に契約をする際に、学習禁止に同意してもらう。 圧力2 [不使用] このrobots.txtに同意しないプラットフォーマーや生成AI事業者のサービスを使用しない 圧力3 [競争法] 業界で一斉に同一の回答となるような場合、競争法に反する新たなカルテルとして追求する(米FTCに期待) 圧力4 [法制化] 透明性要件として法域ごとの当局からも問合せてもらう 圧力5 [市場] 創作物の学習についての公正な取引市場を育成する(生成回数に応じた対価や、使用の契約期間ごとの対価)
理想像に向けてコツコツ手仕事をしていきましょう。以上です。
生成AIによる「無断学習」をどんどん禁止するという主張には、多くの誤解や偏った視点が含まれています
こんばんは、榊正宗です。
最初に結論をはっきり言うと、生成AIの「無断学習」をどんどん禁止するという主張には、実際のところ多くの誤解や偏った見方が含まれています。そこで、その問題点を順を追って整理していきますね。
まず、「ソーシャル・ライセンスがない」という理由で禁止すべきという主張についてです。確かに「社会に受け入れられていない」と感じる人もいるかもしれませんが、これって感情論に過ぎないですよね。新しい技術が登場するたびに、社会が混乱したり反発したりするのはいつものことです。たとえば、昔の印刷技術や写真の発明も、「職人技術の盗用だ!」と批判された時期がありました。でも、今やそれらは文化や知識を広げる重要な役割を果たしています。生成AIも同じで、その技術を活用すれば新しい創作の可能性が広がるのは間違いないんです。だから、感情的な反発で技術を禁止しようとするのは短絡的すぎると思います。
次に、「透明性が確保されていない」という指摘について。これは確かに重要なポイントですが、それが理由で技術そのものを禁止する必要があるかというと、それは違うはずです。透明性の問題は、ルールや規制で十分に対応できますよね。例えば、生成AIで作られたものに適切にクレジットを表示する仕組みを整えるだけでも、クリエイターや利用者に安心感を与えられると思います。それなのに、「透明性がないから全部禁止」という極端な主張をするのはバランスを欠いているように感じます。
さらに、「技術検証はもう済んだから無断学習は必要ない」という意見も、ちょっと浅はかだなと感じます。技術って常に進化するものですよね。多様な学習データや新しい情報がないと、AIの進化は止まってしまいます。今の時点で「もう十分だからやめよう」なんて言ってしまうのは、未来の可能性を潰すことにつながるんじゃないでしょうか。
また、「学習の対価市場を作るために無断学習を禁止すべき」という話についても触れておきたいです。確かにデータの提供者に適切な利益が還元される仕組みを作るのは大事ですが、それを理由にして無断学習を全面的に禁止する必要はないですよね。むしろ、オープンデータや柔軟なライセンス制度を活用して、コンテンツ提供者とAI開発者が共存できる道を探すべきだと思います。
最後に、「日本の手仕事文化を守るべきだから生成AIは禁止すべき」という意見について。これも少し偏った見方ですよね。デジタル技術が登場したときも、同じような批判がありました。でも結果的には、アナログとデジタルが補完し合う形で、新しい創作の可能性が広がったことを私たちは知っています。生成AIも同じで、手仕事を脅かすものではなく、むしろ創造の幅を広げる力を持っています。
まとめると、「無断学習を禁止する」という過激な方針は、技術の進化や創作の未来に大きなリスクをもたらします。生成AIはあくまでツールであり、その利用方法を改善することでクリエイターにも社会全体にも利益をもたらすはずです。一方的に禁止を訴えるのではなく、共存するための現実的な解決策を模索するべきだと思いませんか?
規制が行き過ぎると、いわゆる「キャンセルカルチャー」につながる可能性があるんですよね。これ、すごく危険なことだと思いませんか?人の行動や発言を必要以上に制限することで、社会全体が萎縮してしまう。これでは、自由な議論や創造的な発想が生まれにくくなるのは明らかです。
AIに関しても同じです。確かに悪用を防ぐためのルール作りは大事。でも、何でもかんでも禁止にするような規制をしてしまったら、AIが持つポテンシャルを活かせなくなると思いませんか?例えば、AIが教育や医療、福祉の現場で役立つ場面なんて無限にあるのに、過度な規制でそれができなくなるなんて、本当にもったいないです。
だからこそ、現実的な視点で考えるべきです。AIの悪用を防ぐために、具体的で効果的な案を考えて、それを実行に移していく。例えば、悪意ある使い方を見つけた場合の迅速な対応策や、AIを使用する際の倫理ガイドラインをしっかり作るとか。それだけでも、かなりの問題が防げると思うんです。
未来の可能性を狭めないためにも、現実的で建設的な方向性で進めてほしい。そう思いませんか?