音声アシスタントの可能性

チャットではなく、入力は音声のみを前提とする音声アシスタントの可能性について考えてみた。

ハンズフリーで音声入力できるデバイスとしては、Amazon Echo、Google Home、iOSのHey Siri機能などが挙げられる。

仕組みを想像してみると、音声認識のうち、Hey SiriやOK Googleなどの呼び出し部分の音声認識はデバイス単体でやるにしても、それ以上はサーバに音声と付随する様々な情報を送って処理するのが自然だ。

付随する様々な情報というのは、例えば位置情報だ。今いる場所の近くで美味しいお店を見つけてほしい時に、位置情報がわからなければ探しようがない。予めサーバ側で保持されている利用者のプロフィール情報を使えるなら、より良いレコメンデーションが期待できる。

この考え方でいくと、音声入力デバイスとサーバ側は一体化されている必要性があり、その結果として一体化されているものが、各社それぞれの音声アシスタント機能ということになる。

ここで、仮に音声アシスタント機能のプラットフォーム化を目指した場合、音声アシスタント機能を通じて内部的に呼び出されるサービス機能が何らかの形で開放されることが考えられる。

その場合は、1つのアシスタントに様々なサービス機能を共存させる必要が生まれるため、各サービス機能を呼び出すためのキーワードと、キーワードに対するパラメータという形をとることになる。

結果として、1対1で音声アシスタントと会話することになり、かつ音声アシスタントとして多くのサービス機能を提供することになる。 これは良くも悪くもボット的な動作になる。誤認識してしまった時のストレスなどを考えると、利用者として内部動作が想像しやすいボット的な動作のほうが現実的とさえ思う。

別の観点として、据え置き型のデバイスにおいて、音声アシスタント側から会話を開始するケースを想像してみる。

チャットとは違い、音声はその場限りなのだから、その時その場で必要とされる事柄について話しかけてくれる必要があるだろう。 そうでなければ、うるさい存在になってしまう。

その時その場で必要とされる事柄を判断するには、先にも述べているように音声入力に付随する様々な情報が必要になる。 そのため、音声アシスタント側から会話を開始するケースでは、マイクとスピーカーだけあればいいということにはならない。デバイス本体に持たずとも、ホームネットワークとしての屋内外のカメラや人感センサーとの接続は十分考えられる。

カメラの情報から顔認識と表情推定まで本体内で行えるなら、たとえば表情推定に応じた音楽を流せるかもしれない。

IFTTTのようなものでサーバ側に情報を送れて、それを判断材料にできるなら、イベント契機で話しかけてくれる仕組みは可能だ。 処理フローの途中に、音声通知なり、実行確認を求めてキャンセル可能にするような使い方もできる。

そうやって拡張を続けていけば、できることは増えていく。ただし労力に見合った利便性を得られるかというと、そこは疑問だ。 ということは、音声アシスタント側から会話を開始するケースは今のところ考えないほうがよさそうだ。