Google Research、Deep learningを用いて複数音から特定の発話者だけの声を取り出す視聴覚音声分離モデル発表｜Seamless

Google Researchが、Deep learningを用いて、
複数の音から1人の音声だけを抜き出す
視聴覚音声分離モデル
「Looking to Listen at the Cocktail Party」
を発表したとブログで公開しました。

2人が同時に話す動画を撮影して、
どちらかをミュートにして
どちらかだけを聞こえるように
自由にコントロールできるとのこと。

掲載されている動画でその技術が
どのように機能するかを見ることができます。
詳しくは、リンク記事でご確認ください。

また、今回ご紹介する記事の元情報である、
Google Research Blogのページリンクも記載しますので
参考にしてください。

この方法でインタビューの動画から、
被験者の発話だけを抽出したりということも
できるようになりそうで、自動音声認識技術と合わせて
ナラティブ調査研究の分析にも利用ができそうです。

Google Researchは、Deep learningを用いて、複数の音から1人の音声だけを抜き出す視聴覚音声分離モデル「Looking to Listen at the Cocktail Party」を発表しました。

情報源: Google Research、複数音から特定の発話者だけの声を聞こえるようにするDeep learningを用いた視聴覚音声分離モデル発表

Looking to Listen: Audio-Visual Speech Separation｜Google Research Blog（2018/04/11)
https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html

[PR]

お知らせ

●2025年9月12日に一時的に404エラーでアンドラが閲覧できない時間帯が発生しておりました。現在は復旧しております。ご不便をおかけいたしました。（20250912)
●リンク集「学びに役立つリンク集」に『Japan Dashboard』を追加しました（2025年7月14日）
●リンク集「学びに役立つリンク集」に『京都大学OCW』を追加しました（2025年4月3日）
●アンドラのnoteページで2025年4月から「学習ニュース拾い読み」を紹介しています（2025年4月1日）
●リンク集「学びに役立つリンク集」に『山科鳥類研究所標本データ』を追加しました（2025年3月29日）
●リンク集「学びに役立つリンク集」に『ゼンリン住宅地図プリントサービス』を追加しました（2025年1月30日）
●アンドラの運営はWillingに変更となりましたが、これまでどおりご利用いただけます（2024年6月1日）