NEWS TOPICS

会員向け情報はこちら

SQオンライン

ChatGPTって何?~AI日本最先端の東大松尾研究室に聞いてみた~ 3/5

2023/09/26

3.「そもそも使っていいの?」リスクを正しく理解しよう

■ChatGPTの与えるインパクト

繰り返しになりますが、自己教師あり学習によりデータ学習にラベル付け等の大きな手間をかけることなく、「人間と同じようなこと」を大量に機械ができるようになりました。「人間と同じようなこと」ができるとなれば、もうどこにでも使えるわけです。我々の知的な生産活動だとか、あるいは感情労働みたいなところがITで代替ができてくると考えると、この大規模言語モデル(LLM)の与えるインパクトが非常に大きいわけです。
そこに対して、ビジネスチャンスがあると考えるのは非常に自然な流れであり、世界的に様々な事業者が参入を始めている現状へとつながると思います。

■ChatGPTを使っていいのか?データ流出や著作権的な問題などの懸念もありますが、この点はいかがでしょうか?

使っていいのか?という点でいえば、2つポイントがあるのではないでしょうか。一つは情報漏洩、もう一つは情報の適法性です。

情報漏洩、つまり情報が抜き取られるのではないか?という心配は、新しい技術が出る度に問題点として上がってくるものです。しかし基本的に情報が抜き取られることはないと考えてよいと言えます。
まず、ChatGPTでも会話のログを学習させないという設定ができます。ただし、本当に使ってないのかという点は事業者(OpenAI)を信じるしかないのも事実です。しかし、仮に入力したデータが学習に使われてしまったとしても、情報が漏洩したという話に直結しないと思います。なぜなら、裏側には大量の情報が学習データとして存在しているからです。例えるなら、ChatGPTに何か機密情報を入力したとしてもそれは大量の情報の海に一滴の絵の具を落とすようなものです。情報漏洩となるのは、その海に落とした一滴の絵の具をそのまま抜かれたということなのです。海の中に絵の具を落とした場合、落とした絵の具が一滴の形(粒)を保つことはなく、どんどん広がり、滲み、最後は跡形もなくなります。しかし絵の具一滴自体が海から消えたわけではありません。
つまり、とあるデータを学習したら、そのデータをそのままの形で丸覚えしているわけではなく、その重みが更新されるだけなのです。したがって、とあるデータが丸ごとそのままの状態でどこかに出力されるということではないのです。一企業、一個人が入力するデータ量のレベルでは海に一滴の絵の具を落としたようなレベルです。

■コピペのようなイメージで、入力したデータがそのままの形で学習されると思っていました。

そうではないですね。入力したとあるデータが丸ごとそのままの形で取り出せる状態とは、大量のデータを全部丸抱え(丸覚え)しているということを意味しますが、学習に使用されたデータは重み(パラメータ)を少しだけ変化させるに過ぎません。機械だからといって丸覚えしているということはないです。
例えば、Aさんが「日本のお寿司はおいしい」というデータを入力してみたとして、Bさんが日本でおいしいものは何ですか?と聞いた時に「日本のお寿司はおいしい」とChatGPTが答えたとします。(仮にAさんのデータが学習に使われていたとしても)それはAさんが入力した「日本のお寿司はおいしい」というテキストデータがそのまま丸ごと取り出されたのではなく、「日本のお寿司はおいしい」という内容のデータが多く存在し重みづけされた結果、学習させた言葉として「日本のお寿司はおいしい」ということが生成されたということになります。

■では、情報の適法性はどのようにかんがえたらよいでしょうか?

情報の適法性は、合法的に収集したデータを使っているかということですが、まずは正直言ってしまうと、極論はよく分からない部分があるという認識です。というのも、先ほど申し上げたとおり、学習したデータをそのままの形で丸覚えしているわけではないため、逆を言うと学習したデータを丸ごとそのまま復元することもできないのです。したがって、仮に違法に集めたデータを学習させていたとしても、それを出来上がったモデルから判断するということは難しいと言えます。そこは先ほどと同じようにモデルを作っている会社を信頼するしかないという話になりますが、一方で情報の適法性に対して責任があるのはそのモデルを作っている側の会社ですよねということは言えると思います。

■著作物の侵害などのリスクはどのようにかんがえたらよいでしょうか?

実際に生成されたものが誰かの著作物を侵害していたらそれは非常に問題ですが、これは人間の場合と同じように考えればよいと思います。
著作権法では、著作権を侵害しているとの判断は依拠性と類似性があることとされていますが、生成AIの生成物の依拠性に関しては今後議論が活発化されるテーマだと思います。一方で類似性についてはチェックする必要はあるでしょう。依拠していても類似してなければ著作権の侵害には該当しません。
生成AIで生成した文書を公表するなどの、慎重を期す必要がある場面ではコピペチェッカーのようなものを利用して世の中にある既存の文書とマッチ(類似)してはいないかの確認を取るのは現実的な方法ではないでしょうか。とはいえ、言葉・内容共に完全にピッタリ一致するということは実はあまり起こらないでしょうから過剰に危惧する必要はないと思います。
人間の場合も同じです。自分自身も何かの本(著作物)を読んで大きな影響を受けて、影響を受けた言葉を発していることはごく自然にあります。もちろん、ChatGPTにとある小説の文書を入力して、少しプロットを変えて別の小説を書いてくださいなどと指示して生成させるようなことはダメですよね。一方で、例えば学校で教科書を読んで色々勉強しますが、そこで得たことに対し著作権がどうのこうのという話にはならないですよね。そもそも人間は、様々な表現に触れ、影響を受けて、そして何かを表現しています。
ChatGPTが人間と同じようなことができるということになり、人間型の知性というものを問い直す上でも面白い現象が起こっているのではないでしょうか。

つづきはこちら
4. ChatGPTの回答に怒っていませんか?うまく使いこなそう



上田 雄登
東京大学工学系研究科技術経営学専攻 松尾研究室 学術専門職員
株式会社松尾研究所 経営戦略本部 経営企画 マネージャー

東京大学工学部卒業後、2016年同大学工学系研究科技術経営戦略学専攻修了(松尾研究室)。
その後は、コンサルティングやPE投資を行う株式会社YCP Japan(現 株式会社YCP Solidiance)へ新卒第1号として入社、複数の投資検討、全社戦略策定業務といった経営コンサル業務に加え、AIコンサル業務や投資先の外食事業におけるマネジメント業務にも従事。
2021年4月から松尾研究室の学術専門職員、株式会社松尾研究所の経営企画を担当。新規技術の社会実装についての戦略策定や社内事業の改善に従事。