こんにちは!ぼくは、インフロニア・ホールディングスのスポークスマン「キャレたん」!
今回は、ぼくがファッションをするために必要な「プロンプト」について学ぼう!
早く色んな服を着てファッションショーをしたいなあ。
これまで学んできたことは以下の通りだよ!
今回はどんな学びがあるかな!?ワクワクするね!!
そろそろ暖かくなってきたし、着る洋服を考えなきゃいけないね。
前回学んだことを活かせば、簡単に好きなファッションになれるはず!
ということで今回は、簡単にファッションチェンジできるようになるために、モデルに入力するテキストについて学んでみようと思うんだ。
まず、モデルに入力するテキストのことを、生成AIに関する専門用語として「プロンプト」と呼ぶことを覚えておこうね。
ここからは第1回で学んだ画像生成AIモデル(下の画像の赤丸のとこだね!)の構築についてさらに深掘りして、
どのように画像生成AIモデルに学習させるのか教えるね!
第1回では、複数種類の画像を使って学習することで、モデルを構築していると学んだよね。
そのときはイメージをつかんでもらうために説明を省いちゃったんだけど、モデル構築の学習を行うときには、学習素材の画像に加えて、文字も一緒に学習素材として使うんだ。
この文字は、“タグ”とか、”キャプション“って呼ばれたりするんだよね。
今回は、”タグ“と呼ぶことにしよう!
このタグとは、一体何なのかというと、学習素材の画像が持つ特徴が文字の情報で書かれているものなんだ。
例えば「白いお腹」「黄色い皮膚」みたいな感じだね。専用の“タグ抽出ツール”というものを使って学習素材を読み込ませることで、学習素材の画像がどんな特徴を持っているかが分かり、タグが出力されるんだ。
そして、モデルを構築するときには、「タグとは」の章で説明したように、この学習素材の画像とこれらの素材の特徴を示すタグを一緒に使ってAIモデルを学習させるんだ。
僕の画像からは、どんなタグが特徴として出力されるんだろう?実際にタグ抽出ツールを使ってみよう。
ツールを使って抽出してみると、下のようなものがタグとして出てきたよ!!
・猫の耳
・黒くて丸い目
・黄色い皮膚
・頬の赤いチーク
これらのタグは、AIモデルが理解できる文字情報として抽出されるんだけど、
どうやら僕の「頭の角」という特徴は、AIモデルのなかでは「猫の耳」という文字情報で理解されるみたい(笑)
ここまで、学習素材とタグの関係性について説明してきたね。
モデルを構築するときは、学習素材となる画像と一緒に、
その学習素材の特徴を示す文字情報となるタグを紐づけで学習させるんだね。
そして、僕の「角」や「体の色」、「大きな目」といった可愛らしい特徴は、学習素材に共通する特徴として、より強く学習されるんだ。
学習の結果、学習素材の画像が持つ特徴は、一緒に使ったタグにひもづけられるんだ。
タグをプロンプトとして入力すれば、学習させたキャレたんの画像に近いものが生成されるんだ!
例えば、プロンプトの一部に”猫の耳”と入れて画像生成AIに入力したら、キャレたんのツノを生やすことができるということだね!!
今回の学習のまとめは、以下の2点だ。
●モデルを学習させるときは、学習素材とその特徴を示すタグをセットで使う
●学習素材とセットにしたタグをプロンプトとして使えば、学習素材に近しい画像が生成される
もし、「キャレたんをいろんな服装にしたい」という目的でモデルを構築するんだったら、
その目的に対応した学習素材やタグを選択して、学習させなきゃいけないんだね。
今回の学習素材は、共通して白いシャツ(?)を身につけているから、これらの素材でモデルを構築して、
「ピンクのシャツを着させたキャレたんを生成したい!」と思って生成してみても、
全体がピンクになったりして、どうしてもうまく生成されないんだ。学習素材が適切じゃないんだね...
いろんな服に着替えた僕を生成したいんだけど、どうすればできるんだろう?
サカモトからのひと言(技術担当)
私の顔画像からは、どんなタグが抽出されるんでしょう?
知りたいような、知りたくないような...。