Stable Diffusion web UI を利用してAIイラストを生成する

新しいBingに追加されたAI画像生成機能の使い方を解説

　なお、ゲーミングノートPCはVRAMの容量が明示されていないことがあります。公式サイトの仕様を確認すると６GB程度のこともあるため注意してください。

　今からパソコン本体を購入されるならデスクトップPC一択です。ゲーミングPCのような高性能かつ拡張性のあるものを選んでください。ドスパラ、ツクモ、パソコン工房などのPC専門店に行ってください。店員さんが親切に教えてくれます。家電量販店はPCに詳しくない人も多いのでおすすめしません。

　今ではアップデートによって当初より低スペックで動作するという情報があったように思います。OSはWin 7以降、VRAMは最低４GB、ストレージの空き容量は最低10GB以上となっています。しかし、どちらももっと多いほうが快適です。

（2023年3月22日追記）新しいAI画像生成サービス誕生！！

　Microsoftの「新しいBing」にAI機能が追加されたことは以前から話題になっていました。今度はそれにAI画像生成機能が付加されました。このサービスを利用すると誰でも簡単にAI画像を作成してもらうことができます。

　高価なゲーミングPCや高性能のグラフィックボードをお持ちでないという方はぜひ試してみてください。以下のページに詳しい解説があります。

（2023年10月２日追記）
　今では初期バージョンと比べてとても綺麗なイラストを生成することができるようになっています。また、４月頃からプロンプトの日本語入力にも対応しています。

新しいBingのAI画像生成機能の使い方を初心者向けに分かりやすく解説しています。Microsoftアカウントがあれば誰でも簡単にAIイラストの作成を体験することができます。

Bing Image Creator によるAI画像生成が劇的な進化を遂げる！

Bing Image Creator が「DALL-E 3」の採用で劇的な進化を遂げました。今では日本語入力で驚くほど高精細な画像が生成できます。

Microsoft Bing の AIチャット機能の使い方

Microsoft Bing は有名な検索エンジンとして知られていますが、新しく付加されたAIチャット機能が注目を集めています。ここではその使い方を紹介しています。

どのような環境で利用していますか？

　私の環境は以下のとおりです。パソコンは新しくありませんし、それほど高性能でもありませんが、このようなスペックでも問題なく動作しています。

OS	Windows 10 Home
CPU	AMD Ryzen 3600
メモリ	16GB
ストレージ	SSD 512GB
グラフィックボード	GTX 1660 Super（VRAM 6GB）（追記）↓ RTX 3060（VRAM 12GB）に交換

　自作PCにするとコストを抑えることができます。

新しいパソコンが完成したのでパーツの構成を紹介します

2020年6月、新しいパソコンを購入しました。必要なパーツを集めて組立てる自作ＰＣというものです。お手頃価格のパーツを集めて10万円程度になるようにしてみました。これからパソコンを作り替えるという方はぜひ見てみてください。

「GTX 1660 Super」は誰もが認めるコスパ抜群のグラフィックボード！

ZOTACの「GAMING GeForce GTX 1660 SUPER Twin Fan」を画像を見ながら概観しています。このグラフィックボードはコンパクトでデザイン性が高いことに加えて、低価格という点でとても魅力的な製品といえます。

　CPUとメモリはほどほどで十分のようです。タスクマネージャーを見る限り、これらの使用率は大したことがありませんでした。メインメモリはVRAMの代わりにはなりません。ストレージはモデルをどれだけ入れるかによって必要な容量が異なります。

　一方、画像の生成はグラフィックボードに搭載されたVRAMを使用します。そのため、VRAMの容量が多いグラフィックボードが必要と言われています。VRAMの使用率を見てみると、画像の生成中は天井に張り付いた状態を維持しています。

　グラフィックボードは「GeForce GTX 1660 Super」を使っていますが、画像が出力できないと書いている方もいました。こちらの環境では問題なく動作しています。（追記）グラフィックボードを「RTX 3060」に交換しました。

　旧世代のグラフィックボードでも画像を普通に生成する分には問題ありませんが、効率化を図るために新しいグラフィックボードとの換装を検討しています。３月中に安くなっていたら買い替えるかもしれません。

　画像生成をより快適にして追加学習も行うためには、12GB以上のVRAMを搭載した高性能グラフィックボードが必要になってきます。ミドルクラスのグラフィックボードは、12GBのVRAMが搭載されている「GeForce RTX 3060」が候補に挙がります。それ以上は高価格帯のものしかありません。
　なお、「GeForce RTX 3060」はVRAM８GB版もありますので絶対に間違えないでください！　また、上位モデルの「GeForce RTX 3060 Ti」は性能自体は通常版よりも高いですが、VRAMが８GBなので選ばないでください。

　「RTX 3060」の新品は価格の変動はありますが大体５万円前後で手に入ります（2023年３月時点）。

MSI GeForce RTX 3060 VENTUS 2X 12G OC グラフィックスボード VD7553

MSI

AI画像の生成はグラフィックボードの交換で超快適になる！

グラフィックボードの性能の違いで何が変わるのですか？

　最新の高性能グラフィックボードを使うことで画像を生成する時間を短縮することができます。画像の生成は基本的にVRAMが使用されています。VRAMは512×512のような低解像度を除くとあればあるだけ使います。そのため、グラフィックボードに搭載されたVRAMの容量がもっとも重要といえます。VRAMが12GB以上のものを選んでください。

　詳しくは次のページをご覧ください。グラフィックボードを交換すると快適さが格段に高まります。

グラフィックボードを「GTX 1660 Super」から「RTX 3060」に換装しました。その結果、AI画像生成の処理において画像生成にかかる時間が大幅に短縮されました。

　参考までに、VRAM６GBのGTX 1660 Super は画像１枚（解像度512 × 512 px）の出力に40秒～50秒ほどかかり、５枚同時の出力では５分前後かります。ですので、１回あたりの出力は５枚に押えています。画像は後からリサイズすることも可能です。

　その後、解像度を768×1024に設定して１枚生成してみましたが無事に出力されました。ただ、８分くらいかかりました。

　性能の低いグラフィックボードを使い高解像度のものを出力しようとするともっと時間がかかるか、VRAM不足でエラーが出るかもしれません。高解像度かつ短時間で画像を出力するためには、20～30万円もする超高性能グラフィックボードが必要です。アップスケーリングに関しても同様です。それでも、使い方と状況によってはサーマルスロットリングがかかるかもしれません。熱対策は当然に必須です。

　グラフィックボードは同性能のものであれば、シングルファンよりもデュアルファンやトリプルファンのほうが騒音はマシかもしれません。GTX 1660 Super は幸いにして静かです（いつもと変わらない）。

　グラフィックボードを購入するときの注意点を以下にまとめています。

AIイラストの画像生成におすすめのグラフィックボード

「Stable Diffusion」のようなAI画像生成に最適なグラフィックボードを選ぶ際の注意点を簡潔にまとめています。

　以下のような高性能グラフィックボードは、長さが30cm前後のものや３スロット分占有するものが多いため、小さなケースには入らないことがあります。製品のサイズを確認してみてください。

MSI GeForce RTX 3090 VENTUS 3X 24G OC グラフィックスボード VD7357

GIGABYTE

PNY ピーエヌワイ GeForce RTX4090 24GB XLR8 Gaming VERTO EPIC-X RGB OC 3FAN グラフィックスボード VCG409024TFXXPB1-O VD8268

PNY Technologies

PNY ピーエヌワイ GeForce RTX4090 24GB XLR8 Gaming VERTO EPIC-X RGB OC 3FAN グラフィックスボード VCG409024TFXXPB1-O VD8268

パソコンを買い替えたいのですがおすすめはありますか？

　パソコンのことがよく分からないということでしたら、「ゲーミングPC」として販売されているデスクトップパソコンを選んでください。PC本体は15万円前後で手に入ります。その他、ディスプレイ、DPケーブル、キーボード、マウスなどが別途必要です。これらは既存のものを使い回すことができます。

　パソコン専門店（ドスパラ、ツクモ、パソコン工房など）の店員さんに「RTXシリーズのグラフィックボードでVRAMが12GB以上ある製品が欲しい」と伝えると最適な製品を教えてくれると思います。店員さんもVRAM12GBというだけで察してくれます。

　AIイラストの生成はグラフィックボードの性能がとても重要です。RTX 3060以上かつVRAM12GB以上のグラフィックボードが搭載されたゲーミングPCを選んでください。

　パソコン専門店では、最近になってからゲーミングPCのVRAMの容量を値札に明記するところが増えてきています。それだけAI関連の需要が高まっているということです。VRAMの多いグラフィックボードは、機械学習、深層学習（ディープラーニング）、AI関連の処理に最適です。

　予算が潤沢な方はRTX3090やRTX4090の搭載された上位モデルのPCを選ぶと、解像度を上げても軽快に動作させることができます。ハイエンドのグラフィックボードはVRAMが24GB程度あるものが多いです。しかし、ハイエンドのグラフィックボードは価格が高くてそれだけで良いパソコンが買えてしまうほどです……。

PNY Technologies

バイリンガル設定の導入【Stable Diffusion web UI】

日本語で操作することができますか？

　UIを日本語化することができます。日本語化することで一般的な操作において困ることはありません。

　ただし、プロンプトは「英単語」や「英文」で入力しなければいけません。

「Stable Diffusion web UI」のインターフェースを日本語と英語の「2ヶ国語同時表示（バイリンガル表示）」にする方法を紹介しています。

英語ができないとプロンプトの入力は難しいですか？

　いいえ、英語ができなくても大丈夫です。

　英文は「DeepL」や「グーグル翻訳」またはオンライン英和辞典等を活用してください。もちろん、検索も使えます。単語がメインなので「Tシャツ　英語」と検索すると「T Shirt」と出てくるので問題ありません。

　あるいは、文章を「ChatGPT」に翻訳してもらうというのもアリです。

誰でも分かるChatGPTの登録方法とその使い方

話題の「ChatGPT」のアカウント作成方法とその使い方について画像付きで解説しています。これを見れば誰でも簡単に登録して利用することができます。

（2023年10月２日追記）
　先ほど紹介した bing image creator は、４月頃からプロンプトの日本語入力にも対応しています。また、最近になって初期バージョンとは違って綺麗なイラストの生成も可能になっています。アカウントを作成すれば誰でも短い街時間で気軽に美麗なイラストを生成できます。

Bing Image Creator によるAI画像生成が劇的な進化を遂げる！

Bing Image Creator が「DALL-E 3」の採用で劇的な進化を遂げました。今では日本語入力で驚くほど高精細な画像が生成できます。

新しいBingに追加されたAI画像生成機能の使い方を解説

AIイラストの生成は難しいですか？

　いいえ、AIイラストを生成するだけであればとても簡単です。

　ソフトウェアの準備が整ったら、プロンプトの入力欄に出力して欲しい画像を表現する言葉を入力します。そして、その下欄にあるネガティブプロンプトの入力欄には出力して欲しくない要素を列挙します。

　その後は「生成」ボタンを押すだけです。しばらく待つと画像が出力されます。待ち時間はPC環境（主にGPU）によって大きく変わります。

　しかしながら、想像に近い画像を生成してもらうためには、創意工夫と試行錯誤が必要です。しかし、最近では「ControlNet（コントロールネット）」を利用した新しい手法が普及しつつあるようです。

　「ControlNet」を活用することで登場人物に思いどおりのポーズをとらせることができるようになります。詳しくは以下のページをご覧ください。

｢ControlNet｣の導入とその使い方【Stable Diffusion web UI】

ControlNet の導入方法と使い方を初心者向けに紹介しています。ControlNet を導入することでAI画像の構図や人物のポーズを自由に設定できます。

　「ControlNet 1.1」がリリースされています。

｢ControlNet 1.1｣の新モデルを使用する【Stable Diffusion web UI】

「ControlNet」は今ではAI画像生成に必要不可欠の技術です。その新バージョンである「ControlNet 1.1」の新モデルを色々と試してみました。

「モデル」とは何ですか？

　「Stable Diffusion」を利用した画像の生成は、特定の「モデル」を追加することが前提です。さまざまな「モデル」が配付されていますので、描いてもらいたい内容に応じた「モデル」を追加します。

　また、使用する「モデル」の推奨する「VAE」というファイルが用意されていることがあります。その場合はそちらもあわせてダウンロードして所定のフォルダに配置してください。

　「モデル」によってリアルな人物の描写が得意なものや、デフォルメされたキャラクターの描写が得意なものまで様々です。たくさんの「モデル」が生み出されているようですが、とりあえず有名なものを選んでおけば間違いありません。

　アニメ調にしてもリアルよりにしても様々な描き方があると思います。公開されている「モデル」の中から好みのものをいくつか選んでひとつずつ試してみる必要があります。有名なモデルの画像を比較しているページがたくさんあります。

　実写系のリアルな三次元モデルは「ChilloutMix」が有名です。リアルな人物の画像をTwitterで見てみると、多くの方がこのモデルを使っていることが分かります。

　自分でオリジナルのモデルを作成することも可能です。操作に慣れた頃に試してみてください。

オリジナルのモデルを作る【Stable Diffusion web UI】

「Stable Diffusion web UI」のチェックポイントのマージ機能を使うと、誰でも簡単にオリジナルのモデルを作成することができます。

　また、プロンプトの効果は「モデル」によって変わることがありますので、その「モデル」に応じてプロンプトを追加したり削除したりして試行錯誤しなければなりません。

　それと、「モデル」はバージョン違いのものがあったり、軽量版があったりと様々ですので、説明をよく読んでから適切なファイルをダウンロードしてください。生成される画像は、バージョンが違うだけで大きく異なることもあります。その程度もまた「モデル」によって異なります。

　同一の「モデル」でもファイルの拡張子が「.ckpt（チェックポイント）」となっているものと「.safetensors（セーフテンサーズ）」となっているものがあります。その場合には後者の「.safetensors」版をダウンロードしてください。

　ファイルの変換方法は以下のページをご覧ください。

｢.ckpt｣を｢.safetensors｣に変換する方法【Stable Diffusion web UI】

GUIツールを利用することで誰でも簡単に｢.ckpt｣形式のファイルを｢.safetensors｣形式のファイルに変換することができます。

　インターネット上で公開されているファイルは、中にマルウェアが仕込まれていることがあります。各種ファイルは自己の責任に基づいて利用してください。ファイルをダウンロードしたら必ずウイルススキャンを実行してください。発見できることがあります。また、誤検知の可能性もあります。

（参考）ネットで配布される画像生成AI「Stable Diffusion」の自作モデルデータにマルウェアが混入していないかどうかチェックできる「Stable-Diffusion-Pickle-Scanner-GUI」（Gigazine公式サイト）

「VAE」とは何ですか？

　「VAE」は輪郭線や色彩の描写を補完するための要素が盛り込まれたファイルのようです（間違っていたらすみません）。「VAE」ファイルがないとエラーが出たりグレーっぽい画像が生成されたりすることがあります。

　各モデルのダウンロードページやファイルページをよく見てみると「vae」と付いた名称のファイルが並んでいることがあります。それがある場合は「モデル」と一緒にダウンロードして指定のフォルダに入れてください。

　「モデル」とあわせて、「VAE」を指定したフォルダに移動します。その後に、SDの設定で使いたい「VAE」を指定します。

　また、「モデル」によっては既存の「VAE」の使用が推奨されていることもあります。その場合は詳細が「モデル」の説明欄に書かれています。

（3月25日追記）24日午前の時点では WindowsDefender（最新定義ファイル適用）で検知されなくなっています。おそらく誤検知と思われます。海外のコミュニティでも早い段階で誤検知だろうというコメントがありました。心配な場合は「VAE」ファイルの拡張子が「.safetensors」となっているものを使ってください。
（3月20日追記）「VAE」ファイルの一部が WindowsDefender によって脅威「Trojan:Win32/Casdet!rfn」として検知され隔離・削除されてしまうようです。誤検知の可能性もありますが、念のために当面の間は別の「VAE」で代用しましょう。

アニメのようなキャラはどうやって作るのですか？

　アニメのようなキャラクターを生成することを得意としているモデルを導入します。さまざまなモデルが発表されている中で、どのモデルを選ぶかでイラストのタッチや雰囲気がガラリと変わります。

　３次元よりのイラストを作成する場合は、それが得意なモデルを選んで導入することになります。

　モデルごとの特徴が生成されたイラストと併せて紹介されています。そういう記事を読んでみてください。

　髪色や髪型はそれなりに自由に変えられます。見本の画像は以下のページにたくさん掲載されています。

髪の描写に関するプロンプト【Stable Diffusion web UI】

髪型や髪色の描写に関するプロンプトをまとめて掲載しています。髪色と髪型を指定することで未指定とは違ったキャラクターを生成することができるようになります。

　また、プロンプトを使い分けることで豊かな表情を表現することも可能です。

表情の描写に関するプロンプト【Stable Diffusion web UI】

表情と感情に関する描写についてのプロンプトをサンプル画像とともに多数掲載しています。顔の表現は人物の魅力と印象を大きく左右する重要な要因です。

どのモデルがおすすめですか？

　どういう画像を生成するのかによって選ぶモデルは違います。好きなものを選んでください。後から追加することはいくらでもできます。いずれのモデルもファイルサイズが２GB～８GBと大きい点にご注意ください。

　このページにあるようなアニメ調のイラストであれば「anything-v4.0（huggin Face公式サイトのモデルのページ）」というモデルはいかがでしょうか。とりあえず、このモデルで綺麗なイラストを描いてもらうことができます。使い方に慣れたら他のモデルを試してみるという方法でよいかもしれません。

　背景も綺麗に描いてもらうことができますよ。

背景に関するプロンプト【Stable Diffusion web UI】

このページでは風景・景色・場所などの背景に関するプロンプトを掲載しています。背景の描写は人物を引き立てて雰囲気や物語性を良くすることに繋がります。

　上のページにアクセスして、タブを「Files」に切替えると「anything-v4.0.ckpt」というファイルがあります。そちらをダウンロードしてください。「.safetensors」版のいずれかのファイルをダウンロードしてください。たとえば「anything-v4.0-pruned.safetensors」など。

　このほかにも同じようなファイル名でバージョンの違うものがたくさんあります。それによって、イラストの雰囲気が多少違うかもしれません。

　なお、このモデルは「VAE」と呼ばれるファイルの使用が推奨されているようですから、そちらも同時にダウンロードしておいてください。上のファイルのすぐ下に「anything-v4.0.vae.pt」というファイルがあります。

　ファイルの変換方法は以下のページをご覧ください。

｢.ckpt｣を｢.safetensors｣に変換する方法【Stable Diffusion web UI】

GUIツールを利用することで誰でも簡単に｢.ckpt｣形式のファイルを｢.safetensors｣形式のファイルに変換することができます。

（2023年3月25日追記）
　各種「VAE」ファイルは WindowsDefender では検知されなくなりました。
ーーーーーーーーーーーー
　他の項目にも記載していますが、3月19日頃あたりから「anything-v4.0.vae.pt」を含む複数の「VAE」ファイルが WindowsDefender の定義ファイルの更新によってトロイとして認定されるようになっています。他のウイルス対策ソフトでは反応がないようですが……。
　「VAE」ファイルが必要な場合は別のもので代用してください。以下の「VAE」のものを使っていますが、こちらの環境では今のところ何も検知されていません。
（二次元より）
「vae-ft-ema-560000-ema-pruned.safetensors（Hugging Face）」
（三次元より）
「vae-ft-mse-840000-ema-pruned.safetensors（Hugging Face）」

写真のようなリアルな人物はどうやって作るのですか？

　Twitter等で注目を集めているリアルなCGは、そういう描写の得意な「モデル」を入れる必要があります。

　それに加えて、超高画質かつ超高精細な画像は、グラフィックボードの性能が何よりも重要になってきます。VRAM24GBの「RXT 4090」や「RTX 3090」を手に入れてください。以下は参考です。値段を見るとびっくりしますよ……。

PNY ピーエヌワイ GeForce RTX4090 24GB XLR8 Gaming VERTO EPIC-X RGB OC 3FAN グラフィックスボード VCG409024TFXXPB1-O VD8268

PNY Technologies