On a Thread of the Web: 画像生成AI（４）

2022年8月28日日曜日

画像生成AI（４）

最近の，画像生成AIブームについては，noteの深津貴之（fladdict）さん（世界変革の前夜は思ったより静か）や，ギリアの清水亮さん（StableDiffusionを使った新しいAI作画サービスを作りました。日本語でOK。無料です）などのIT業界の牽引者の注目を集めている。

この波がどこまで広がるかは，気になるところである。いずれにせよ，大規模言語モデルを背景としたAI系の新しい仕組みは今後されに浸透してゆくことは間違いない。これが，OSの標準機能に噛んでいけば，すべてのアプリケーションでAIの仕組みを使った機能が加わる。すなわち，新しいコンテンツの創造が，適切な対話型インターフェース（最低限のプロンプト・エンジニアリング）によって簡単に実現することになる。

(1) 祐筆：タイトルと趣旨を入れるだけで，自動的に，イラスト入りレポートやエッセイや広告コピーや文学作品を生成する機能を持つワードプロセッサ。
(2) 主計：データの要件と目的を入れるだけで，必要なデータを検索して取り込み，これを分析した結果を生成する機能を持つ表計算ソフト。
(3) 算法：入力と出力の集合の定義と関係を入れるだけで，自動的に数理モデリングの手法を選択して結果を最適な表現形態で表わして説明する統合数学ソフト。
(4) 藝術：着想を入力することで，器楽，声楽，効果音，絵画，写真，イラスト，マンガ，アニメ，立体，動画を自動生成する表現支援ソフト。
(5) 森羅：対象（自然現象，生物，鉱物・地形，人工物・商品，建築・構築物，テキスト・画像断片，人物）を撮影すると，詳細情報を説明する検索ソフト。
(6) 執事：予約や買物や連絡を代行して調整するアシスタント。
(7) 師範：自分の学びたい内容について助言するアシスタント。

このあたりが，近未来のパーソナルコンピュータ（＝デジタルアシスタント）が持っている７つの基本アプリケーションのイメージになる（ディープラーニングAIや巨大言語モデルと直接関係しないものも含まれているような・・・）。256GB/8TB M7 MacHeadset Air とかで実現できていれば，すぐにも買いたいけれど，それまで生きていられるかしら。

話を戻すと，Stable Diffusionをベースにして清水さんが作った日本語アプリが Memeplex（α版）である。プロンプトの日本語は英語に変換されて Stable Diffusion 1.4に投げられ，結果は512x512の画像としてユーザごとの領域に出力される。入力の際に，画風指定，スタイル指定，作家指定が，ドロップボックスで設定できるが，もちろん，プロンプト枠に手入力しても構わない。待ち行列で順に処理されるが，その待ち行列の中身が公開されているのがおもしろい（その後これは見えなくなった）。