On a Thread of the Web: シンセティック・メディア（１）

2023年6月4日日曜日

シンセティック・メディア（１）

昨日，国立情報学研究所のオープンハウス（6/2-6/3）の様子がYouTubeで中継されていた。生成系AIの話題にはそれほど目新しいものはなかったが，後半の「フェイクメディア研究の最前線」が印象的だった。

AIの普及で当面大きな問題になるのは，レポートの代筆でも，著作権侵害でも，機密情報漏洩でもなく，シンセティック・メディアかもしれない。シンセティック・メディアの定義は次のようなものだった。

シンセティック・メディアとは、リアルな音声付き動画をAIによって作り出す動画合成技術である。事前に用意したテキストと人（映像、音声）のデータからAIが学習し、その人が本当に話しているような動画の生成が可能である。

深層学習に基づく生成系AIブームのはじまりは，OpenAIのDALL-Eだったけれど，半年前のChatGPT（2ヶ月半前のGPT-4）の登場によって話題は，対話型文書生成AIのほうに集中してしまった。そうこうしているうちに，並行して，AIによるリアルタイムボイスチェンジャーが我々の手元にまできている。

AI革命の第１段階である対話型文書生成AIの応用範囲と実用性は非常に高い。オフィスワークの中で，単純作業よりはむしろデータ分析やクリエーションなどの高い技術を必要とされる分野でのインパクトが大きい。対話型文書生成AIは， (1) 自然言語によるUIインターフェイスを提供するものであることが，プラグインの登場によりますます明らかになると同時に，(2) 汎用的なテキスト処理ツール としての役割が認識され，企業にはすでに浸透しはじめている。

第２段階が，対話型文書生成AIのマルチモーダル化であり（GPT-4は既に実現しているのかもしれないが），その進化系としてのシンセティック・メディアの普及になる。NHKのAIによる音声ニュースが，2018年からはじまった中国の新華通訊社のAIアナウンサーに追いつくのはいつのことだろう。ChatGPTで議論されていることの多くが，MR環境のもとでシンセティック・メディアに進化することになるのだろうか？AppleのWWDCで高くて無駄に高機能だといわれるゴーグルが発表されるのも間近らしいけど。

2019年にNHKのAI美空ひばりが一時話題になったとはいえ，シンセティック・メディアの話題はいまのところ，フェイクニュースが中心となっている。さきほどあげた国立情報学研究所のYouTubeでも，フェイク映像をディープラーニングによってどうやって見破るかという話が中心だった。