top of page
  • 執筆者の写真代表

Stable Diffusion WebUI・AUTOMATIC1111・Google Colabで漫画を書く

更新日:5月29日

以下の3つの記事を参考に、本サイトのトップ用に漫画を書いてみたいと思う。


この組み合わせにたどり着く前に、CapCutの生成AIにも挑戦したが、うまく使役できず断念。CapCutの前にはRunwayにも課金したが見事に馴染まなかった。


今回は三度目のチャレンジとなる。そろそろコツを掴みたいところ。


どの環境を使うかを決める

結論から言うとGoogle Colabを使うのだが、ローカル環境で構築するかを一瞬検討した。

しかし、推奨スペックからだいぶ遠いことに気づいて比較的早く断念した。


推奨スペック

手持ちPC

CPU

最新モデルのCore i5~Core i7、Ryzen 5~7

Apple M2(8コア

GPU

RTX 30シリーズやRTX 40シリーズのVRAMが12GB以上

Apple M2(10コア

メモリ

16GB~32GB

8 GB

ストレージ

512GB以上


環境構築を行う

とりあえずまずは最初に、Colabの有料版に課金をします。ColabPro(1,179円/月)を勢いでポチる。大人をナメるなよ!


そして何が何なのかイマイチわからないまま、これらのコマンドを叩く。


1... AUTOMATIC1111/stable-diffusion-webuiのリポジトリをGoogle colabに複製する


2... Stable Diffuson Web UIのインストールおよび起動

%cd /content/stable-diffusion-webui
!python launch.py --share --enable-insecure-extension-access

本当は2行目で<--xformers>オプションを付けたかったけど、これがあると画像生成時に

のような「memory_efficient_attention_forward」というエラーが出てしまう罠にかかった。

そのため、最終的には↑に記載のとおりトルツメしたコマンドに落ち着いた。

この対策に関しては、こちらを参考にした。


このコマンドはサーバーが起動するまでに5分くらいかかった。


【Running on public URL: https//xxxxx.gradio.live】のURLが表示されたら起動完了とのことで、このURLを叩くとStable Diffusionが使えるようになる。


「cat wearing sunglasses」で生成された絵。ちょっと感激。



試行錯誤開始

生成AIで作成される画像や動画は実際の人間の骨格に近い6〜10頭身のものが多い気がするが、今回は4〜5頭身のデフォルメしたキャラクターにしたいと考えた。

そこで、主役となる予定の30歳男性サラリーマンをお手本イメージとしてお絵描きをして、img2imgで生成実行してみた結果がこちら。

ちなみにプロンプトには「three view drawing, comic character, front and side and back, simple background, man, 30yearsold, japanese, wearing gray suit, arms crossed in front of chest, deformed character」と入れた。


誰だよ。どう見ても元の絵の方が100倍マシだろ。こっち見んな。



試行錯誤開始

まったくコミュニケーションの取れない相手を目の前に心が折れそうになるが、冷静に参考文献に再度目を通してみる。

によると、最初のキャラデザの時点では手書きのイラストは登場せず、text to imageだけでデザインしたと書かれていたので、それに倣うようにしてみる。


しかし現時点ではあまりにも人間からかけはなれた謎の生物が生成されるので、何かが根本的に間違っているのではないかと思い、調べていると「Sampling method」というオプションが重要っぽいことに気づいた。



で紹介されていた3種類で試してみるが、ベツモノすぎて判断ができない。なので DPM++ 2M Karrasでいいや、ってなった。



この参照サイトには最後の方に「Stable Diffusionで絵を描く際にはモデルが必要となりますが」と書かれていて、「できあがったキャラデザ雛形的なものか...?」などと思いつつ、とりあえず、【モデルが必要 → モデル ≒ Lora】くらいの雑な認知のまま先へ進む。

(ちなみに、後から勉強したものは用語集にまとめているので参考までにどうぞ)


そして調べていると...なんと、

に色々なモデルがあることがわかった。ここでよさげなものをダウンロードしてそれを元に試行錯誤する方が早そう。

こんな感じでいくつかピックアップした。

結局選んだのは

というやつにした。理由は、表情がコミカルなショート漫画に向いてそうだったから。

あと、Loraは複数混血にすることができるようなので、

も混ぜてみる。


インストール手順は、サーバー上の以下のフォルダにダウンロードしたファイルを置けばOK。


プロンプトはまだよくわからないのでシンプルに、

(masterpiece, best quality, ultra detailed),」を入れると良いらしいので入れる

トリガーワードの「chibi,simple background」を入れる

キャラクターの外見の特徴を何個か入れる。今回は女の子にしてみる。髪色と目の色はどのサンプルプロンプトを見ても指定されるようである。

1woman, black hair, suits, brown eyes, beautiful face,」あたりを入れる。

まとめると、

(masterpiece, best quality, ultra detailed), 1woman, black hair, suits, brown eyes, beautiful face, chibi, simple background, <lora:style05:0.8>」になった。

尚、カンマの横にスペースがあるほうが良いとの噂があったので、おまじない的にスペースも入れる。


ネガティブプロンプトは割と定型文らしいが、以下を入れておく。

EasyNegative, low quality, bad anatomy, bad hands poorly eyes, bad body


また、同じ条件でLoRAモデルの数値だけを変更して実行してみた結果がこんな感じでした。


数値が大きいとノッペリするようである。(この辺はLoRAの特性に依存しそう)

ここまでやって分かったのは「誰でも優雅にサクッと上手い絵がかける」というモンではないのだなと痛感。しかし、掘る甲斐あり。まだまだ研究と練習をしたい。

閲覧数:5回0件のコメント

最新記事

すべて表示

Comments


bottom of page