シンセティック・メディアとは、リアルな音声付き動画をAIによって作り出す動画合成技術である。事前に用意したテキストと人(映像、音声)のデータからAIが学習し、その人が本当に話しているような動画の生成が可能である。
深層学習に基づく生成系AIブームのはじまりは,OpenAIのDALL-Eだったけれど,半年前のChatGPT(2ヶ月半前のGPT-4)の登場によって話題は,対話型文書生成AIのほうに集中してしまった。そうこうしているうちに,並行して,AIによるリアルタイムボイスチェンジャーが我々の手元にまできている。
AI革命の第1段階である対話型文書生成AIの応用範囲と実用性は非常に高い。オフィスワークの中で,単純作業よりはむしろデータ分析やクリエーションなどの高い技術を必要とされる分野でのインパクトが大きい。対話型文書生成AIは, (1) 自然言語によるUIインターフェイスを提供するものであることが,プラグインの登場によりますます明らかになると同時に,(2) 汎用的なテキスト処理ツール としての役割が認識され,企業にはすでに浸透しはじめている。
第2段階が,対話型文書生成AIのマルチモーダル化であり(GPT-4は既に実現しているのかもしれないが),その進化系としてのシンセティック・メディアの普及になる。NHKのAIによる音声ニュースが,2018年からはじまった中国の新華通訊社のAIアナウンサーに追いつくのはいつのことだろう。ChatGPTで議論されていることの多くが,MR環境のもとでシンセティック・メディアに進化することになるのだろうか?AppleのWWDCで高くて無駄に高機能だといわれるゴーグルが発表されるのも間近らしいけど。
2019年にNHKのAI美空ひばりが一時話題になったとはいえ,シンセティック・メディアの話題はいまのところ,フェイクニュースが中心となっている。さきほどあげた国立情報学研究所のYouTubeでも,フェイク映像をディープラーニングによってどうやって見破るかという話が中心だった。
0 件のコメント:
コメントを投稿