学習ニュース拾い読みのアイキャッチ画像

大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか? |GIGAZINE

アメリカのテキサスA&M大学や
カリフォルニア大学バークレー校などの研究チームは、
大規模視覚言語モデル(LVLM)が人間のように
地図を読み取って適切なルートを見つけられるかを
調べるため、「MapBench」という新たなベンチマークを考案。

この「MapBench」の地図には、
「動物園」「博物館」「国立公園」「大学」「Googleマップ」
「テーマパーク」「山道」「都市」「ショッピングモール」という
9つのシナリオに分類され、合計100の異なる地図から
作られた1600以上の地図読み取り・ナビゲートタスクが
含まれているそうです。

この「MapBench」を用いて、Metaの「Llama-3.2」、
Alibabaの「Qwen2-VL」、OpenAIの「GPT-4o mini」
および「GPT-4o」といったモデルをテストした結果とは?
詳しくはリンク記事でご確認ください。

大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか? – GIGAZINE
多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。
gigazine.net

[PR]