PROFILE: 野口竜司/ELYZA取締役CMO
生成AIが世に出回り始めて1年以上が経過した。文章や画像が生成できるこの技術は、自然言語での指示が可能。チャットボット形式の「ChatGPT」の登場によって、あっという間に世界中に広まり、さまざまに活用されている。2022年までZOZO NEXTチーフAIオフィサーを務め、ファッション業界も知りながら、現在は東京大学・松尾研究所発のAIスタートアップELYZA CMOとして活躍する野口竜司氏に、生成AIとは何か?強みと弱み、ファッション業界にどんな影響をもたらすと考えるのかを聞いた。なお、この記事はインタビューのテープ起こしをテーマごとに分けて「ChatGPT」に入れ、整えたもので構成した。(この記事は「WWDJAPAN」2023年10月30日号生成AI特集からの先行公開で、無料会員登録で最後まで読めます。会員でない方は下の「0円」のボタンを押してください)
WWD:まず、AIとは何ですか?
野口竜司ELYZA取締役CMO(以下、野口):AIは「人工知能」とも呼ばれ、人間の能力を人工的に再現しようとする技術のことです。例えば、見る力や話す力、動く力、作る力などを人工的に持たせようとするものです。
WWD:では、生成AIとは何ですか?
野口:生成AIは、AIの「話す力」や「作る力」を進化させたものです。ディープラーニングという技術が元になっており、学習したデータから言語や画像などを生成することができます。例えば、GPTというAIは、人の言葉を元に新しい文章を作り出すことができます。ディープラーニングが注目されていた第3次AIブームの後、その派生として生成AIが誕生しました。生成AIは主に言語系のAI、例えばGPT、やクリエイティブな作品を生成するAIに分かれます。
学習と生成の仕組み、“間違い”について
WWD:生成AIとは、具体的に何を学習しているのですか?
野口:生成AIの一つ、GPTの3.5世代の場合、約45テラバイトのデータ、日本語で換算すると20兆文字ぐらいを学習しています。ウィキペディアを数十、数百倍したレベルのデータ量です。GPTは主に言語データを、画像生成AIは、画像とその画像を説明するテキストのペアデータを学習しています。
WWD:AIは自分でインターネットからデータを取ってきて勝手に学習しますか?
野口:ネットなどから学習データの基となるものを取得した上で、人間が適切なデータセットとして加工するのが一般的です。そのデータセットを基にAIが学習します。
WWD:学習したものからどうやってAIは言語を生成するのですか?
野口:学習の仕組みを簡単に言うと、まず大量のデータが必要です。言語学習の場合は大量の文章や言葉をまず用意します。
学習方法については、英単語の受験勉強で一部の単語を隠して自分で答えを思い出す、あの方法をイメージしてください。AIも同じように、大量のデータの中から一部を隠して、正しい答えを予測する訓練をします。この「自分で問題集を作る」能力が、大規模なAIの特長です。さらに、どの情報が重要で、どの部分を問題として出すと効果的かも学ぶことができます。そして、私たち人間からのフィードバックも大切で、例えば「この文章は自然じゃない」という指摘を受け取り、それを学習材料として改善していきます。
WWD:画像生成の場合はどうですか?
野口:画像生成のAIも似たようなプロセスです。多くの画像と、その画像の説明やキャプションを学習します。そして、特定のテキストに基づいて、どんな画像を生成すればいいかを学びます。言語系と同様に、生成された画像が正しいかどうかの確認や、人からのフィードバックを通して、より正確に画像を生成する能力を高めていきます。
WWD:自己内での学習と人間からのフィードバックで精度を高めていくわけですね。
野口:まさに繰り返し学習をして、モデルをアップデートしていくことで、より精度が上がって、より人間にとって自然な出力をするようになっていくんです。そして、それが実際に役立つAIのサービスや製品に応用されているわけです。例えば、人が書いたテキストから記事を生成したり、デザイナーの要望を叶えるデザインを生成したり。その潜在能力は非常に大きいと思っています。
WWD:でも、間違えたりもしますよね?
野口:確かに完璧ではありません。AIは学習したデータに基づいて判断を下すので、そのデータに偏りや誤りがあれば、それに基づいて出力することもあります。また、新しい状況や学習していないデータに関しては、うまく対応できないことも。だから、AIを利用する際は、その出力を鵜呑みにせず、人間が最終的なチェックを行うことが重要です。
WWD:人からのフィードバック、例えば画像生成AI「ミッドジャーニー」を使う際に、個人が入力するフィードバックは学習に役立っていますか?
野口:はい、「ミッドジャーニー」ではユーザーが4つの選択肢から自分が気に入ったものを選ぶような仕様になっています。その選択は学習の一部として取り入れられているはずです。適切な選択をユーザーにしてもらっているので、選ばれなかった3つの選択肢に対してはペナルティーがかけられていると思います。このように、人からのフィードバックが多いほど、システムをより賢くするための情報として役立っています。
WWD:学習したデータがそのままの形で出力されることはありますか?
野口:コラージュのように学習に使用した画像データを直接組み合わせて出力するようなことは行われていないので、基本的にはあり得ないです。でも、例えば「葛飾北斎風」などの指定をした場合、AIは「葛飾北斎風が何か」ということを理解しているため、そのスタイルに似たものを自ら生成することができます。しかし、それは直接葛飾北斎の描写を切り貼りしてコピーしているわけではありません。
定期購読についてはこちらからご確認ください。
購⼊済みの⽅、有料会員(定期購読者)の⽅は、ログインしてください。