On a Thread of the Web: 画像生成AI（２）

2022年8月26日金曜日

画像生成AI（２）

YouTuberのMattVideoProによれば，現時点でも20以上の画像生成AIサービスが立ち上がっている（下記リスト参照）。たぶん今年の最も重要なトレンドの一つだ。前回は，CrAIyonを試してみた。日本では，Midjouneyが流行っている。

今回登場したのが，Stable Diffusionとこれを利用したサービスのDream Studio (beta) である。その紹介はこのへんにある。

1. Google Imagen/Parti (Unreleased) https://parti.research.google/
2. Open AI Dall-E 2 (Closed Beta) https://openai.com/dall-e-2/
3. Stable Diffusion (Free to use) https://huggingface.co/spaces/stabilityai/stable-diffusion
4. Simulacrabot (Closed Alpha) https://stability.ai/simulacrabot/terms-of-use
5. Midjourney (Free Trial, paid access) https://www.midjourney.com/app/
6. Shonenkov AI (Free to Use) https://t.me/shonenkovAI (JOIN MY DISCORD FOR LINK)
7. Meta Make-A-Scene (very Closed Beta) https://about.fb.com/news/2022/07/metas-new-ai-research-8. tool-turns-ideas-into-art/
9. Microsoft VQ Diffusion (Free to use) https://replicate.com/cjwbw/vq-diffusion
10. Deep AI Text to Image (Free Access) https://deepai.org/machine-learning-model/text2img
11. MindsEye beta (by multimodal.art) (Free to use) https://colab.research.google.com/drive/1cg0LZ5OfN9LAIB37Xq49as0fSJxcKtC5
12. CrAIyon (Free to use) https://www.craiyon.com/
13. Min-dalle (Free & Paid) https://replicate.com/kuprel/min-dalle
14. Dall E Flow (Free to use) https://github.com/jina-ai/dalle-flow
15. Wombo (Free & Paid) https://app.wombo.art/
16. Laion AI Erlich (Free & Paid) https://replicate.com/laion-ai/erlich
17. Latent Diffusion (Free to use) https://huggingface.co/spaces/multimodalart/latentdiffusion
18. Glid-3-xl (Free & Paid) https://replicate.com/jack000/glid-3-xl
19. Night Cafe (Free & Paid) https://creator.nightcafe.studio/explore
20. Disco Diffusion (Free & Paid) https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
21. Cog View 2 (Free & Paid) https://replicate.com/thudm/cogview2
22. Pixray (Free & Paid) https://replicate.com/pixray/text2image
23.Hot Pot AI (free & Paid) https://hotpot.ai/art-maker
24. Nvidia gaugan2 (Free to Use) http://gaugan.org/gaugan2/

話題のStable Diffusionをはじめ，Diffusionという言葉がよくみられるのは，これらのシステムが，Latent Diffusion Model（潜在拡散モデル）を使っているからだ。それは，与えられた画像にガウスノイズを徐々に追加して完全なノイズになるまで破壊し，ニューラルネットワークにその逆転プロセスを学習させたものだからだ。これに適当なテキストとの関連付けを行うことでノイズから画像を生成することができるらしい。

このとき，適切なキーワードの集合をどうやって準備するかが，目的とする画像を完成に近づけるかの鍵となる。そこで，すぐれた技術を持つ人がプロンプト職人，その技術がプロンプト・エンジニアリングとよばれる。

プロンプト・エンジニアリングは，画像生成AIだけでなく，自然言語による質問応答や文書生成などができるAIがよってたつところの巨大言語モデル（GPTなど）の流行にも対応している。

さて，Stable Diffusionのデモを試してみたところ，今日は混雑していてだめだった。昨日確かめた例が下にある。ほとんどトライアンドエラーを繰り返していないので，そんな精緻な結果は得られていない。なお，Dream Studioにお金を払えばより短時間で制限なく利用できるはずだ。