音声インターフェースを「ごっこ」でデザイン ― スマートスピーカーの制限と将来性にクックパッドはどう取り組んでいるか

今、最も注目を浴びているデバイス、スマートスピーカー。世界的には、2014年に発表されたAmazon Echoを2016年リリースのGoogle Homeが追っている状況ですが、日本では2017年後半になって10月にGoogle Home、11月にAmazon Echo(第2世代)が続けざまに発売され、音声操作デバイスが一気に話題となっています。

この新しい家庭用デバイスにサービスを提供しようと、Google Home向けのアプリやAmazon Echoのスキル(Echoではアプリではなくスキルと呼ぶ)といった、音声アシスタントアプリの開発競争も始まっています。そんな中、Amazon Echoの日本リリースにあわせて当初からパートナーに選ばれたクックパッドは、「あと一品足りない」ときに利用できる音声操作サービスを開発しました。

クックパッド 〜使いたい材料だけで、すぐに作れる人気の料理レシピ提案〜: Alexaスキル

このサービスの開発過程には、Webインターフェースと音声の違いによる制限の中でユーザーのニーズを絞り込む方法や、VUI(Voice User Interface)による新しいUXデザインのあり方など、音声インターフェースならではの考え方・開発手法が試されていました。

今回の試みや課題、スマートスピーカーの将来性について、開発者の山田良明y_am_a_daさんにお話を伺いました。

f:id:blog-media:20180507194835j:plain

実装自体は簡単だが、音声インターフェースの把握が難しい

── スマートスピーカー向けの機能、AmazonスキルやGoogle Home対応アプリの開発は、クックパッドでも初めてだったと思います。山田さんはこれまでも、Webサービスの開発を手がけてきた実績があったのでしょうか?

山田 いえ、僕自身はサービス開発は行っていませんでした。もともと大学時代には栄養学を学んでいたので、ITが専門というわけではないんですね。現在所属している部署も研究開発部で、社内のデータを使って機械学習を行ったりするのが主でした。
 音声のインターフェースを持つサービスの開発は初めてなので、社内にもノウハウはありません。サービスの内容もそうですが、開発手法自体も試行錯誤しながら見つけていきました。

── まさに新分野へのチャレンジですね。

山田 はい、スタート時の専任の開発メンバーは僕ひとりでした。

── ひとりですか!?

山田 兼任で携わってくれる人はいて、大まかな方向性の相談や壁打ちなどは受けてもらってました。今年に入ってから専属でデザイナーが入りましたが、当初は僕ひとりでしたね。

── 音声を扱うとなると、開発が難しいのではないかと思いますが。

山田 いわゆる音声認識や音声合成の部分は、GoogleやAmazonが提供しているツールを利用して取り扱うので、開発には含まれていないのです。開発側が扱うのは、通常のテキストデータなので、難しいことはありません。
 また、音声インターフェースを使ったアプリでは、現状でそもそもそれほど複雑なことはできないので、開発のボリュームはあまり大きくないんです。GoogleとAmazonでも、開発をする上では細かいインターフェースの部分は変わるものの、ベースのアーキテクチャは同じだし、開発言語も一緒なので、AndroidとiOSの違いに比べたら微々たるものですね。

── なるほど。音声だからといって、特殊な開発は必要ないんですね。

山田 新たに必要な技術はないと言っていいですね。
 ただ、触れないところが多いので仕方ありませんが、日本語の認識ミスはまだ多いです。こちらで音声認識精度を上げるためにできることもあるので、その部分で対応しています。
 例えば、優先して認識してほしい言葉を、辞書として用意しておくことができます。クックパッドでは食材の検索を行うので、あらかじめ食材のキーワードをリストにしておけば、発音が似ているものも食材として認識してくれるようになります。
 とはいえ、話す人によっては「ウドうどん」や「(かれい)カレー」はなかなか判別できませんね(笑)。

── それは人間でも難しいですね(笑)。音声だからこその課題はほかに何かありましたか?

山田 特に大変だったのは、音声インターフェースの性質を把握することでした。これまでのWebサービスが視覚情報だったのに対して、スマートスピーカーは聴覚情報を扱います。視覚と聴覚では、そもそも性質がまったく異なるんです。
 聞いて把握できる情報量が、視覚に比べて非常に少ないのも大きな違いのひとつです。視覚情報はずっと残り続けるのに対して、音声情報はその場限りで消えてしまう。「しょうゆを大さじ1、みりんと酒を大さじ2加える」という情報は、視覚であれば簡単に理解できますが、耳で聞くと意外と覚えていられないものなんですよね。
 それに、何か知りたいと思ったときに、人がわざわざ発声して尋ねないと情報を得られない。視覚ならぱっと見るだけで済むことが、音声ではそうはいかないんです。制限はかなり大きいですね。

f:id:blog-media:20180507194840j:plain

音声インターフェースの特長を活かせるのは「シンプルなサービス」

── 逆に、音声ならではの利点は何でしょう?

山田 手を使わないで操作できることと、デバイスが必ずしも見える場所になくても利用できることは、スマートフォンなどの既存のデバイスにはない長所ですね。

── クックパッドのスキルでは、そういった長所をどのように生かしているのでしょうか。

山田 もともとのスタート地点は、「汚れた手でスマホを触りたくない」というところでした。レシピの調理手順を音声でガイドしてもらったら便利ですよね。でも、実際にそれを実現させるのは、かなり困難だということがわかったんです。

── どこが難しかったのですか?

山田 レシピをそのまま読み上げても、その手順を人がすべて覚えるのは難しい。「玉ねぎをあめ色になるまで炒め、調味料を加える」という手順を一気に読むと、長すぎるんです。
 だからといって、文を短く切ればいいのかというと、それも違う。「玉ねぎをあめ色になるまで炒める」「茶色くなってきた。アレクサ次は?」「次に調味料を……」。こんなやり取りをしているうちにどんどん時間がたって、玉ねぎが焦げちゃいますよね(笑)。
 そこで、落としどころとして、当初のゴールを「レシピをスマホよりも簡単に検索できて、パッとみられる状態にする」というところに設定しました。

── 今の、「食材を一つ言って、そのレシピを検索する」というサービスは、そんな経緯で生まれたんですね。

山田 はい。検索結果として提供するレシピも、コンセプトに合わせて「食材一つでパパッと作れるもの」にしています。
 スマートスピーカーは家に置かれているものなので、それを使うシーンは家で料理をする直前ではないか。そこで家にない食材を含んだレシピを提案されても、困ってしまいます。だから、食材単体で作れるレシピを提案することにしています。
 当初から「食材一種類」にこだわったのには理由があって、複数の食材に対応すると、利用シーンを想定するのが難しくなってしまうんですよね。主菜なのか副菜なのか、何を提案すればいいのかわからなくなってしまう。一種類であれば、あまり手の混んだ料理にならず、パパッと一品追加するようなレシピが求められることが予想できるので、ユーザーの求める提案ができる可能性が高くなります。
 とはいえ、やはり利用する側としては、複数での検索もしたくなるのではないかということで、開発の後半になってから機能の追加を決めました。実際のところ、現状では複数の食材で適切な提案をできているかどうか自信がまだ持てていませんが、サービスを開始してみたら複数の食材で検索する人は非常に多かったので、入れておいてよかったです。

クックパッドのAmazon Echo向けサービスをリリースしました 〜開発で得られた音声操作の知見〜 - クックパッド開発者ブログ

「アレクサごっこ」でプロトタイピング

── アプリの仕様が固まるまでにはかなり紆余曲折があったようですが、どうやって開発を進めていったんでしょうか? 通常のWebサービスだと、プロトタイピングではアプリのモックを作ったり、ホワイトボードに書いたりしますけど、その手法は使えませんよね。

山田 実際に人が会話してみるんです。ひとりがアレクサ役になってセリフを読み、もうひとりが利用者になって会話するんですね。「アレクサごっこ」って呼んでます(笑)。
 社内にキッチンがあるので、実際に使われるシチュエーションを再現できます。ダンボールを冷蔵庫に見立てて、中に食材を入れて、アレクサごっこをしてみたこともありました。
 開発中は、頻繁にアレクサごっこを行っていますね。このプロトタイピングには、人間さえいればいいので、他に準備が必要ないんです。簡単にプロトタイピングできるのは、音声インターフェース開発の魅力でもあります。

── プロトタイピングが「アレクサごっこ」とはおもしろいですね。会話をしようと思いついたきっかけは何だったんですか?

山田 特にきっかけというのはなくて、割とすんなり頭に浮かんだんですよね。どう試そうか考えたときに、「人がやればいいじゃん」と(笑)。もともと僕自身が社会人になるまでIT系に縁がなかったこともあり、既存のプロトタイピング手法が染み付いていなかったせいかもしれません。
 僕は自分で「会話する」方法にたどり着きましたが、今は、スマートスピーカーの勉強会などで「会話をする」プロトタイピングがいいということは共有されてきていますね。
 「アレクサごっこ」でわかったことはいろいろあります。初期段階では、音声アシスタントと利用者とが自然な会話をするようなシナリオにしていたのですが、実際には会話を楽しみたいとは思わなくて、むしろさっさと結果がほしいのだというフィードバックが得られました。あと、「提案するレシピのジャンルはバラバラにしたほうが良い」というのもそうですね。

f:id:blog-media:20180507194849j:plain

音声インターフェースデザインも視覚デザインも根底は同じ

── 開発メンバーは、山田さんともう一人のエンジニア、デザイナーで構成されているとのことですが、音声インターフェースのデザインとは、どのようなことを行うんでしょうか。

山田 スキルやアプリが使われるストーリーを考え、フローチャートやシナリオを作っていきます。イメージとしては脚本家が近いですね。演劇のシーンを考えて、そのシーンでどういう会話をするのかを考えるという仕事で、VUI(Voice User Interface)デザイナーといいます。

── いままでの、ビジュアルのデザインとはかなり違う役割になりますね。

山田 表現方法やツールは違います。WebデザインではHTMLの知識や画像加工技術が必要になりますけど、音声の場合は、ツールが必要ありません。
 一方で、デザインのスキルというものは、根底の部分では共通していると感じますね。
 例えば、タッチパネルのフリック入力とキーボードでは、ソフトウェアデザインとハードウェアデザインとで領域はまったく異なります。しかし、両方とも、求めるところは変わりがありません。そこを考えて形にしていくののが、デザイナーなんだと思います。
 実際に、今のチームのVUIデザイナーも、もともとはWebデザインをやっていました。デザイナーが入ることで、スキル・アプリの質もかなり変わってきましたね。音声のサービスで、デザイナーの果たす役割は大きいです。

── Webデザインの世界では、よくUI/UXが重要だと言われますが、ユーザー体験(UX)の質を高めることが大事なのは、音声インターフェースでも同じですね。

山田 はい。音声インターフェースの場合は、むしろUXの部分だけを考えることに集中できるので、デザインの勉強としても良い教材だということは感じます。面白い領域です。

対話のデザインプロセス〜Amazon Echoのスキル開発〜 - クックパッド開発者ブログ

── スマートスピーカー向け以前に、巨大Webサービス、モバイルサービスとしてのクックパッドがあります。そちらとの連携はどのようになっているのでしょうか。

山田 アカウントが連携していて、スマートスピーカーでの検索結果は、Webサービスやモバイルアプリの自分のフォルダに保存されます。
 また、レシピ検索を行うデータベースも共通です。ただ、全レシピを対象にするわけではなく、スマートスピーカーからの検索対象になるレシピはある程度絞り込んでいます。対象となるデータにはフラグを付与しているというイメージです。
 あとは、直接の連携ではありませんが、先ほど紹介した音声認識を高めるためのキーワードの抽出に、既存サービスでの検索履歴を活用しています。数万ワードのキーワードを一から作り直すとしたら非常に大変ですが、既存のデータを使えたので簡単に用意できました。

音声サービス、料理ジャンルのデファクトスタンダードを目指す

── リリースされて約半年が経ちましたが、今後どのような展開を予定していますか?

山田 現状、提供しているものはまだ未完成という認識です。どう良くしていくかというイメージはあるので、まずはそれを形にするのが先決ですね。目標としては、スキルがカバーしているサービスの内容については、スマートフォンを使うより、スマートスピーカーを使ったほうが便利だと言ってもらえるようなものにしたいです。
 画面付きのスマートスピーカーも出始めていますけど、僕はそちらに対応するよりも、音声だけでできることをもう少し突き詰めていきたいです。視覚情報に頼れるということは、逆に言うと目で見える場所に置いてもらわなければ機能しないという制約でもあるし、そもそも画面付きのスマートスピーカーは高価なので、普及の面でも疑問があります。

── スマートスピーカーの将来についてはどのように考えていますか?

山田 今はまだ、スマートスピーカーに話しかけるのに抵抗があるという人も多いです。でも、子どもたちは喜んで話しかけるんですね。
 おそらく、5年後・10年後になったときには、「話しかけても反応しない機械って何なの?」と言われる時代が来ると思うんです。今の子供は液晶テレビもタッチして操作しようとするらしいですが、それが音声でも起こり得る。そのときに、料理ジャンルのスキルでは「クックパッドがデファクトスタンダード」と言われる存在でありたいですね。
 打算的ではありますが、言葉というのはつい口をついて出てくるもので、呼び慣れたものを別のものに変えるというのはかなり体力がいる。音声サービスは、スイッチングコストが非常に高いんです。だから、デファクトスタンダードを目指してこそだと思います。

f:id:blog-media:20180507194844j:plain

山田 良明(やまだ・よしあき) y_am_a_da / ysak-y / ymd
クックパッド株式会社研究開発部スマートキッチングループ所属。静岡県立大学大学院で食事画像に関する画像解析について研究し、2016年3月に博士前期課程を修了。同年4月、クックパッド株式会社に入社。同年7月から発足したばかりの研究開発部に配属され、現在は音声インターフェースを用いたプロダクトの開発に携わる。

(取材・構成:GeekOut編集部、森嶋良子

【お知らせ】画像認識技術をテーマに「GeekOutナイト」開催(※5月21日申込締切)

IT・Webエンジニア向け転職サイトGeekOutでは、2018年5月30日(水)にイベント「GeekOutナイト」を開催します。詳細は下記のリンクをご参照ください。