Google Researchが、Deep learningを用いて、
複数の音から1人の音声だけを抜き出す
視聴覚音声分離モデル
「Looking to Listen at the Cocktail Party」
を発表したとブログで公開しました。
2人が同時に話す動画を撮影して、
どちらかをミュートにして
どちらかだけを聞こえるように
自由にコントロールできるとのこと。
掲載されている動画でその技術が
どのように機能するかを見ることができます。
詳しくは、リンク記事でご確認ください。
また、今回ご紹介する記事の元情報である、
Google Research Blogのページリンクも記載しますので
参考にしてください。
この方法でインタビューの動画から、
被験者の発話だけを抽出したりということも
できるようになりそうで、自動音声認識技術と合わせて
ナラティブ調査研究の分析にも利用ができそうです。
Google Researchは、Deep learningを用いて、複数の音から1人の音声だけを抜き出す視聴覚音声分離モデル「Looking to Listen at the Cocktail Party」を発表しました。
情報源: Google Research、複数音から特定の発話者だけの声を聞こえるようにするDeep learningを用いた視聴覚音声分離モデル発表
Looking to Listen: Audio-Visual Speech Separation|Google Research Blog(2018/04/11)
https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html
[PR]