Googleマップ vs Siri vs ナビタイム、音声認識だけでどこまでいけるか? | CYCLE やわらかスポーツ情報サイト

Googleマップ vs Siri vs ナビタイム、音声認識だけでどこまでいけるか?

新着 技術

絶景ポイントは、芦ノ湖スカイラインの三国山。富士山がキレイなポイントだが、あいにくちょっと雲がかかっていた(車両協力:富士重工業)
  • 絶景ポイントは、芦ノ湖スカイラインの三国山。富士山がキレイなポイントだが、あいにくちょっと雲がかかっていた(車両協力:富士重工業)
  • 箱根神社の参道
  • ナビタイムで音声入力できるコマンドの例
  • ナビタイムの目的地設定
  • ルートガイド開始(ナビタイム)
  • Googleマップの音声入力による目的地設定
  • Siriは地名のみの入力だと、検索の絞込を行う
  • iOSマップによるルートガイド画面
自然言語処理に対応した音声認識エージェント(AI)は、これからの自動車には欠かせない機能になっていく。そもそも、現状の音声認識技術の実装はどの程度まで進んでいるのだろうか。カーナビやGoogleマップなどの音声認識機能について、運転中に音声だけでどの程度の検索や設定ができるのかを調べてみた。

対象としたのは、ナビタイムのドライブサポーター、Googleマップ(Google Assistant)、iOSマップ(Siri)の3つの音声認識機能。それぞれについて、ルートガイドの目的地設定、経由地の追加、現在地周辺のスポット検索をすべて音声で設定できるかを試した。

ルートガイドそのものは評価の対象としなかったが、目的地や施設名の設定、周辺スポットの検索は現在位置にも影響するので、実際に車で移動しながらの操作を行うことにした。目的地は芦ノ湖畔の箱根神社。経由地は東名高速道路の海老名サービスエリア。周辺スポット検索は、箱根神社到着時に「周辺で富士山のよく見える場所」を探すことにした。


◆目的地設定

まず、目的地の設定だが「箱根神社」は、ナビタイム、Google Assistant、Siriどれも認識してくれた。当然だが、どのエージェントも地名や施設名などそれぞれの地図データに登録があればヒットするが、そうでない地名や施設名は違う場所を候補として挙げてくる。

GoogleもSiriも検索エンジンの情報を利用するため、名称が正確でなくても思った目的地にヒットしやすいが、ヒットした場所を地図上に表示するだけで、「ここから自動車で、~まで」と発話しないとルートガイドまでの設定はしてくれいない。目的地だけ発話しても、その場所の地図を表示するだけだ。「自動車で」を入れないと、徒歩、公共交通機関、自動車と3つのルートガイドを表示する。

ナビタイムは登録された名称と一致すれば目的地として設定するか聞いてくる。「はい」などと返事をすればルートガイド設定をしてくれる。AIと会話している雰囲気にはなるが、登録名称と一致しないと「みつかりません」といった応答になりやすい。


◆経由地設定

ナビタイムは、まず目的地を設定した状態で別の地名や施設名を発話する。経由地に設定したい場所が見つかれば「経由地に設定」などと発話すると、最終目的地を維持したまま新しい検索結果を経由地として設定できた。ただし、現在の目的地を維持したまま、別の場所を最終目的地としたい場合(現在の目的地を経由地とする)、音声操作だけでは設定できなかった。おそらく、目的地を設定しなおしたあとに、元の目的地を経由地として設定しなおす必要がある。

なお、箱根神社へ移動中、東名高速道路上で経由地として海老名サービスエリアを設定しようと音声操作をしたところ、なぜか、高速道路を降りて一般道から海老名サービスエリアにアクセスするルートが設定された。理由は不明だが、他のサービスエリアなども同様な結果となったので、仕様なのかもしれない。高速道路上のサービスエリアは検索する必要がないという前提だ。だが、「目的地の中間くらいにあるサービスエリア」といった設定は将来的にはできてほしい。

Googleマップで経由地を追加する場合は、画面でのタッチ操作が必要で、音声のみで経由地設定はできなかった。経由地追加のメニューをタップしてから地名を入力するか音声入力する。追加した経由地の順序の入れ替えはリストをフリックするだけで可能だが、これも音声だけで入れ替えることはできなかった。

iOSマップはカーナビ機能はあまり意識していないようで、設定したルートガイドに経由地を追加する機能はない。画面操作を駆使すれば可能かもしれないが、今回の調査で操作、発話した範囲では経由地設定はできなかった。


◆周辺スポット検索

周辺スポット検索は、今回調べた中ではどの音声認識、マップも苦手だったようだ。箱根神社到着後、「周辺で富士山がよく見える場所」という内容で検索、目的地設定を試みたが、3つとも成功しなかった。そもそもこのようなあいまいな表現は、認識できないようだ。GoogleマップやSiriなどはそのままのキーワードで検索をかければ、なんらかの情報にヒットしそうだが、その情報から目的地として設定すべき場所まで認識できないのだろう。Googleマップでは、富士山そのものの場所を候補として挙げてきた。

発話内容も「周辺の景勝地」「公園」「展望台」などといろいろ試してみたが、「富士山」が入ったとたん、そのキーワードが優先されるようだ。まともに候補を挙げてきて設定できたアプリはなかった。


◆自然言語処理の実装に期待

筆者個人の感想だが、自動車の中での音声操作という視点でいえば、やはりそのために設計されたナビタイム(ドライブサポーター)に若干の歩があると思った。目的地などあいまいな検索は苦手だが、利用状況を「カーナビの操作」であることを前提にできるため、動詞、名詞の意味の判断がしやすいからだろう。地名だけの発話でも、それは目的地か経由地だろうと決め打ちで次の処理につなげることができる。

ナビタイムのホームページには、音声で操作する場合のコマンド一覧が公開されている。これに目を通しておけば、かなりの設定が音声で可能だが、やはり、単語(コマンド)認識から文の認識まで拡張し、地名や周辺スポットなどあいまいな(自然な会話に近い)表現にも対応を進めていってほしい。

GoogleやSiriは、あいまいな検索など発話内容の幅は広いが、もともとが汎用OSの入力機能であるため、自動車で移動中の検索や道案内という限定された用途に弱い。少なくとも、今回調べた範囲では、画面操作が必要な場面が多く、しかもタッチ操作の画面ということを考えると、やはり運転中にハンズフリーで操作できるレベルには達していない。

いわゆる「No Free Lunch」の原理(汎用的な機能と専用的な機能を全体の便利さで比較するとどちらも同じ程度に落ち着く)だ。


なお、今回の比較は、あくまで、現状の音声認識の実装が、カーナビのアシスタントとしてどの程度の処理が可能なのかを調べたもので、対象の音声認識機能全体を評価するものではない。おそらく、それぞれを使い込んだユーザーにすれば、「こういう手順でこう発話すればもっと簡単だ。もっと高度なことができる」と思うだろう。しかし、自然言語処理はそれでは意味がない。使い慣れた人や操作を意識した発話でなくても処理できる必要があると考える。現状の音声認識アシスタントが苦手とするような条件を選んでいるのはそのためだ。特定の製品や機能の優劣を問う記事ではないことをご理解いただきたい。
《中尾真二@レスポンス》

編集部おすすめの記事

page top