トランスフォーマーはもともと言語処理のために
2017年に考案された人工神経回路で、
ビジョン・トランスフォーマー(Vision Transformer, ViT)
と呼ばれるものが画像処理にも威力を発揮します。
大阪大学の研究チームは、人間の場合、
一番大事なところに注意=目(視線)を向けますが、
ViTの注意は人間と同じ場所に向いているのかを調べるため、
ViTを複数個体を「育て」て実験に用いて、
人間が映画やテレビ番組を見ているときの視線データとの
比較を実施。
その結果からわかったこととは?
詳しくはリンク記事でご確認ください。

人工知能が人と同じ視線を獲得した! – ResOU
大阪大学大学院生命機能研究科ダイナミックブレインネットワーク研究室 北澤 茂 教授と大阪大学大学院医学系研究科脳生理学研究室 山本 拓都さん(博士課程) らは、動画を見るときの人間の視線計測データと人工知能(ViT)の「注意」を比較して、情報量を最大化する自発的な学習(DINO法の学習)をした人工知能が人間と極めてよく似た場所を見るように「育つ」ことを発見しました。一方で、画像識別を行うように「詰め込み」型の教育を受けたViTは、人間とは違うところを見るようになりました。
DINO法の学習をした人工知能は、一切「顔」の概念を教えていないのに、テレビ番組や映画のシーンを見せると、その場の主役を選んでその顔を見るようになりました。さらに、視覚心理学で注意の研究に使われる人工的な画像に対しても、人間とよく似た場所を見ることが明らかになりました。
ViTには、複数の注意の主体(ヘッド)が設定されています。さらに詳しく注意のヘッドを解析したところ、人間とよく似た場所に注意を向けるグループ1、場面に登場する人や物全体に注意を向けるグループ2,さらに背景だけに注意を向けるグループ3,の3群に分かれることが明らかになりました。
伝統的な心理学では、心は世界を注意の対象である「図」とそれ以外の「地」に分離するとされてきました(図地分離)。本研究のDINO法で育てたViTは、図を図の全体(グループ2)と図の中心(グループ1)に分けていました。人間の視線がグループ1と一致したことから、人間もViTのように世界を3群に分けて理解している可能性が示唆されます。
本研究の成果は、人と相性が良い人工知能の開発や、人間にとって自然な教育・学習法の開発・評価に応用されるものと期待されます。
本研究成果は、2025年5月21日に国際神経回路学会の機関誌電子版「Neural Networks」に掲載されました。
[PR]