こちらのエントリーの折に初めて生成AIに触れた。ここでは用語集をまとめておく。
Google Colaboratory関連
Google Colaboratoryがどういうものかをざっくり理解するための絵。
Colab(正式名称「Colaboratory」)
ブラウザ上で Python を記述、実行できます。以下の機能を使用できます。 ・環境構築が不要 ・GPU に料金なしでアクセス ・簡単に共有
ノートブック
ノートブックはセルのリストです。 セルには、説明テキストまたは実行可能コードとその出力が含まれます。 セルをクリックして選択します。
セル
セル(Cell)とは入力フィールド(テキストフィールド)のことで、プログラムを入力して実行する事が出来ます。 セルには<コードセル>と<テキストセル>があります。
使うのはだいたい<コードセル>の方。コマンド書いたりするほうはそっち。
90分ルールと12時間ルール
Google Colaboratoryでは、90分放置するとランタイムが強制リセットされる。そして、放置していなくても起動後12時間経過するとランタイムが強制リセットされる。
画像生成関連
モデル
生成AIが、統計データなどに照らし合わせたり解析したりといったことを自律的に行うことで学習し、得られた結果を出力する仕組みのことです。 「GPT-3」「VAE」「GAN」などが例として挙げられる。Stable Diffusionでは「拡散モデル」が採用されている。
学習パターンみたいなものと捉えておけば大丈夫っぽいのかなと思います。
イメージとしては、「ある瞬間の所持金を最大化するのが正」とするモデルに従って生成される「5,000円返してよ」への回答は、下の絵のようなサイコパス野郎になるのだろうと思います。
また、Stable Diffusionに採用されている「拡散モデル」というのは、
拡散モデルでは、学習用の画像にノイズを追加した上で、その画像からノイズを除去していき、元画像を復元します。このように、「与えた画像にノイズを付加し、元の画像を復元する」プロセスを繰り返すことで、画像生成を行う仕組みをAIに学習させます。
というものらしいです。
LoRA
Stable DiffusionのLoRAとは、「Low-Rank Adaptation」の略で、低コストでAIの追加学習を行い、好みの画像を簡単に出力できるようにするツールです。 例えばラーメンを食べる姿を学習させて作られたLoRAを使うことで、ラーメンを食べる女性の画像を正確に出力することができます。
追加学習用のモデル、ということのようです。
①画風を調整できる
②キャラクターを固定して画像生成ができる
③好みの服装にすることができる
④好みの背景にすることができる
⑤ポーズを変更することができる
などの用途で利用することができ、複数混在で組み合わせて使うことも可能です。
Seed
Seedは画像生成した時に付与される番号になっており、Seedを使用することで同じ画像生成をしたり、画像の一部の特徴を引き継いで似たような別の画像生成をしたりすることができます。 Seed値は「-1」の設定ですとランダムで数値が決定されるようになっており、「Generate」ボタンを押した時にランダムでSeed値が付与されて画像生成されます。
ポーズはそのままで目の色を変えたり髪型を変えたりすることができるものです。
ガンダムSEEDを彷彿させるな...カコイイ
トリガーワード(Activation text)
LoRAを使う時の注意点として、「トリガーワード」と呼ばれるプロンプトが設定されている場合、プロンプト入力欄にトリガーワードを入力する必要があります。トリガーワードはLoRAごとに異なるので、ダウンロードページで確認しましょう。
LoRAを解放するパスワードみたいなものか...。
CheckpointとCheckpoint Merge(r)
Checkpointは、モデルの一種でLoRAのベースになるもの。図にするとこんな感じ。
CheckpointMergeはStable Diffusion web UIが標準で備えている機能の一つで、モデルファイルを混ぜ合わせることが出来る機能。
Comments