あなたが思っているよりも音声認識は進化している
繰り返しの作業を処理するシステムは、何世代にもわたって世界の経済を支えてきました。しかし、会話やインタラクションを処理するシステムは?しかし、人間の会話は複雑であるため、それは不可能であると考えられてきました。AlexaやSiriを日常的に使っている人であれば、人間のメッセージを処理する機械学習がいかに不十分であるかを証明できるでしょう。一般の人はまだ次世代の音声AIツールに触れたことがありませんが、この技術が可能にすることは、私たちが知っている世界を変える可能性があります。
以下では、この分野の進歩のペースを加速させている3つの革新的な技術について説明します。
注文のための会話型AI
音声AIの専門家は、煩雑な作業を軽減することで、人間がインパクトのある創造的な活動に従事できるようにする技術を優先しています。ドライブスルーでの注文は、会話型AIが効果を発揮する分野として開発者に早くから注目されていましたが、ある企業がそのコードを解読したようです。
レストランのドライブスルーでの注文を処理する会話型AIシステムを作ることは、メニューを読み込んで、チャットベースのAIを使えば、簡単にできるように思えるかもしれません。しかし、実際のソリューションはそれほど簡単ではありません。実際には、車の騒音、交通量、他のスピーカーなど、屋外の環境で動作するシステムや、複数のアクセント、性別、年齢を解読できる高度な音声認識を実現することは、非常に困難です。
Hi Autoの共同設立者であるRoy BaharavとEyal Shapiraは、ともにオーディオ用のAIシステムのバックグラウンドを持っています。バハラヴはGoogleで複雑なAIシステムを、シャピラはNLPとチャットのインターフェイスを担当していました。
バハラヴは、このようなシステムを実現する難しさを語っています。「一般的に、人間の音声処理は難しいものです。携帯電話に話しかけると理解してくれますが、それは屋外環境での音声理解とは全く異なる問題です。ドライブスルーでは、人々は独特の話し方をします。人は優柔不断で、何度も考えを変えるものです」。
後者の問題は、彼らが「多回転会話」と呼んでいるもので、人間が平気で行う前後関係のことです。何年にもわたる練習、モデルトレーニング、改良を経て、Hi Autoは現在、全国のドライブスルーに会話型AIシステムを導入し、90%の精度を達成しています。
シャピラは、「3年後には、会話型AIを導入しているレストランが4万店舗にもなるでしょう。これは主流のソリューションになるでしょう」と述べています。
“AIは、クイックサービスレストランにおける2つの重要な問題に対処することができます。”インテル・コーポレーションのバイスプレジデント、ジョー・ジェンセン氏は次のようにコメントしています。”消費者の満足度に直結する注文の正確さ、そして注文の正確さは、スタッフが費やす余分な時間を減らすことで、スタッフのコストにも影響します。”
インテリジェント・マシンのためのカンバセーション・クラウド
会話型AIの世界における2つ目の画期的なイノベーションは、人間の言葉を入力に変える技術を使ったものです。
Whitehead AIのCEOであるDiwank Tomerは、会話型AIが直面する歴史的な課題を次のように説明しています。「人間の言語で話したり、書いたり、何かを伝えたりするときには、多くの背景情報に依存していることがわかりました。それは世界に関する一般的な事実だけでなく、自分がどのように感じているか、何かがどのように定義されているかといったものです。
「これらは、私たちにとっては明白で透明なものですが、AIにとっては非常に難しいものです。だからこそ、ジョークはAIにとって理解するのが難しいのです。それは典型的には、馬鹿げたことや不可能なことを、そうでないように見える方法でフレーム化したものです。人間にとって、それは明白です。AIにとってはそうではありません。AIは物事を文字通りにしか解釈しません。
では、ニュアンスや感情を解釈したり、推論したりすることができないシステムは、どうやって人間と適切なコミュニケーションをとるのでしょうか?それは、非ネイティブスピーカーが新しい言語を理解するのと同じ方法です。
文脈を認識するAIは、話し手の身元やその他の事実以外の追加情報を利用できるモデルを構築します。チャットボットは、本質的に不足している分野のひとつであり、この技術の恩恵を受けることができます。例えば、チャットボットがユーザーのプロフィールや過去のやり取りなどのデータから文脈情報を得られれば、高度に知的な回答を導き出すことができます。
私たちは、自然言語を操作するためのインフラを構築しています。私たちは自然言語を操作するためのインフラを構築しています。新たに構築したのは、雑談APIです。実際に拾ったり、ウィットに富んだ回答を返すことも可能になりました。”
トーマーは、これらのテクノロジーの未来に大きな期待を寄せています。「会話を理解することはとても重要です。どんなコンピューターとも会話ができることを想像してみてください。例えば、エレベーターで立ち往生しているとき、あなたが叫べば、コンピューターが助けを呼んでくれます。私たちの感覚はテクノロジーによって拡張されるのです。”
データプロセスの自動化
音声は、非構造化データの一形態に過ぎません。収集し、評価し、解釈すれば、パターンやトレンドのアウトプットは、戦略的な意思決定や価値あるフィードバックの提供に利用できます。
super.AIは、Brad Cordovaによって設立されました。同社は、AIを用いて非構造化データの処理を自動化しています。Data Process Automation(DPA)は、音声ファイルや動画ファイルなどの非構造化データを扱う反復的な作業を自動化するために利用できます。
例えば、ある大手教育企業では、子どもたちがウェブサイトを使って文章を音読しています。super.AIは、プロセスオートメーションアプリケーションを使って、子どもがどれだけエラーを起こしたかを確認しました。この自動化プロセスは、人間が行うよりも精度が高く、反応速度も速いため、学習効果を高めるためのフィードバックが可能になります。
Super.AIは、音声から名前、住所、社会保障番号などのPIを取り除くことができる音声リダクションシステムを持っています。また、音声や映像の一部から著作物を削除することで、GDPRやCCPAへのコンプライアンスを確保することができます。
super.AIのサポート機能が価値あるものであることは明らかですが、Webサイトの商品リストの品質保証から会議でのメモ取りまで、現在あらゆることを行っている人たちに関しては、人間を代替するには行き過ぎているのではないかという疑問があります。
コルドバは「人間と機械は直交している」と言います。最高のチェスプレイヤーを見れば、彼らは人間でも機械でもなく、人間と機械が一緒に働いていることがわかるでしょう。人間は何のためにこの世に生まれてきたのか、直感的にわかるものです。人と話したり、共感したり、創造的な仕事をしたりすると気分がいいものです。
「人間がやるべきではない仕事、つまり気分が良くない仕事はたくさんあります。私たちは、人間にもっと人間らしくなってほしいと思っています。人間の仕事を奪うのではなく、人間が得意で機械が苦手な分野を人間が担当できるようにするのです。”
音声AIは、前例のない領域をチャーターし、市場の変革を必然的にもたらすペースで成長しています。この種の技術の導入率は、現在知られているほとんどの業界を変えるかもしれません。AIが統合されればされるほど、人間はその恩恵を受けることができます。コルドバが簡潔に述べているように、”AIは人間が開発する次の、そして最後のテクノロジーかもしれません。” 私たちの社会で新たな役割を担うAIの能力は、人間をより人間らしくさせる力を持っています。そしてそれは、あらゆる可能性の中で最高の結果なのです。
出典:Forbes