動画に出ているセリフや人物をAIを使って分析できるサイトがマイクロソフトのVideoIndexerというサービスです。
その名の通り、動画(ビデオ)に索引(インデックス)を抽出してくれるサービスとなります。一定時間までは無料でお試しすることができます。
動画からセリフや文字を抽出するには?
AIが進歩してくると、動画の内容分析もかなり自動化できます。
マイクロソフトではVideo Indexerという機能やサイトを提供しています。
サイトでは動画をアップロードするだけで動画分析ができます。
またAzureAPIを利用することでプログラムがから処理を行うこともできます。
ログインにはマイクロソフトアカウントが必要。
ただし無料で試用をすることができます。
Video Indexerのサイト上で、最大 600 分間の無料インデックス作成できます。
APIによる利用の場合、最大 2,400 分間の無料インデックス作成を利用できます。
インデックスが作成されると、セリフの場所などを後から探しやすくなるわけです。
Video Indexerをサイトから使う
以下サイトへアクセス。マイクロソフトアカウントでログインします。
アップロードボタンを押すと動画アップ画面となります。
ただし「ファイルまたはデータを送信することにより、データ (生体認証データを含む) を使用するためのすべての権限を自分が持っていることを表明し、それがドキュメント、サービス契約、プライバシーに関する声明に従って処理され、保存されること」に同意する必要があります。
今回は自分で作っていた動画を利用しておきます。
まずはアップロードで時間がかかります。
アップロード後にインデックス作成処理の時間がさらにかかります。
分析情報で見たい種類をチェックしてみましょう。
セリフの抽出
セリフは分析情報のトランスクリプトで確認できます。
精度はもう一つですが、相当活舌は悪いせいもあるのだと思います。
OCRで文字を抽出
OCRは画面上の文字をテキストとして抜き出してくれます。
感情を抽出
x分~x分はFear(恐れ)、X分~X分はJoy(楽しい、元気)などに分類してくれます。
これはこれで面白い使い方ができそうです。
話者を識別
しゃべってる人その1、その2のように、何番目の人物かを識別してくれます。
今回はポッドキャストで、ジングルの音をその2と認識したようです。
今回はポッドキャストデータなので、人物が出た場合の分析はもうひとつわかりませんでした。
しかし動画から文字を音声の場合もテロップの場合も書き出せるのは便利な使い方がいろいろと考えられそうです。