ChatGPTの教科書

ChatGPT、生成AIなどで困ったことを調べたブログ

【VideoIndexer】動画からセリフや文字を抽出するには?

動画に出ているセリフや人物をAIを使って分析できるサイトがマイクロソフトのVideoIndexerというサービスです。

その名の通り、動画(ビデオ)に索引(インデックス)を抽出してくれるサービスとなります。一定時間までは無料でお試しすることができます。

動画からセリフや文字を抽出するには?

entrevue radio

AIが進歩してくると、動画の内容分析もかなり自動化できます。

 

マイクロソフトではVideo Indexerという機能やサイトを提供しています。

サイトでは動画をアップロードするだけで動画分析ができます。

またAzureAPIを利用することでプログラムがから処理を行うこともできます。

 

ログインにはマイクロソフトアカウントが必要。

ただし無料で試用をすることができます。

 

Video Indexerのサイト上で、最大 600 分間の無料インデックス作成できます。

APIによる利用の場合、最大 2,400 分間の無料インデックス作成を利用できます。

 

インデックスが作成されると、セリフの場所などを後から探しやすくなるわけです。

 

Video Indexerをサイトから使う

以下サイトへアクセス。マイクロソフトアカウントでログインします。

https://www.videoindexer.ai/

f:id:apicode:20200220154107p:plain

 

アップロードボタンを押すと動画アップ画面となります。

 

ただし「ファイルまたはデータを送信することにより、データ (生体認証データを含む) を使用するためのすべての権限を自分が持っていることを表明し、それがドキュメント、サービス契約、プライバシーに関する声明に従って処理され、保存されること」に同意する必要があります。

今回は自分で作っていた動画を利用しておきます。

f:id:apicode:20200220154406p:plain

 

まずはアップロードで時間がかかります。

f:id:apicode:20200220153851p:plain

 

アップロード後にインデックス作成処理の時間がさらにかかります。

f:id:apicode:20200220154538p:plain

 

f:id:apicode:20200220154900p:plain

 

分析情報で見たい種類をチェックしてみましょう。

f:id:apicode:20200220155038p:plain

 

セリフの抽出

セリフは分析情報のトランスクリプトで確認できます。

精度はもう一つですが、相当活舌は悪いせいもあるのだと思います。

f:id:apicode:20200220154902p:plain

 

OCRで文字を抽出

OCRは画面上の文字をテキストとして抜き出してくれます。

f:id:apicode:20200220155041p:plain

 

感情を抽出

x分~x分はFear(恐れ)、X分~X分はJoy(楽しい、元気)などに分類してくれます。

これはこれで面白い使い方ができそうです。

f:id:apicode:20200220155211p:plain

 

話者を識別

しゃべってる人その1、その2のように、何番目の人物かを識別してくれます。

今回はポッドキャストで、ジングルの音をその2と認識したようです。

f:id:apicode:20200220155330p:plain

 

今回はポッドキャストデータなので、人物が出た場合の分析はもうひとつわかりませんでした。

 

しかし動画から文字を音声の場合もテロップの場合も書き出せるのは便利な使い方がいろいろと考えられそうです。

このブログは、ネットや書籍上の情報、個人の体験や感想を中心にまとめたものです。 正確性を期していはいますが、間違い・誤訳等あるかもしれません。 当サイトの情報によって生じたいかなる損失について一切の責任を負わないものとします. あらかじめご了承ください。

利用規約・プライバシーポリシー |〇問い合わせ