顔画像解析と音声解析による感情や気分を解析するAIに挑むAffectivaとセレンス

感情認識やムード（気分）をAIで理解することは、中長期の研究開発テーマとして注目されている。いわゆるアフェクティブコンピューティング（Affective Computing）という領域であるが、近年は機械学習・AI技術の進化に伴い、基本的な感情については顔画像を解析したり、声のトーンを解析することである程度は認識できるようになってきた。

一方で、顔にははっきりと出ていなくても、表面に出ない感情や気分は解析しにくい。そこで顔画像と音声という2つのセンシングデータをマルチモーダルに解析することで、より正確に感情・気分を分析する試みがされている。

Affectivaとセレンスは、お互いの強みを合わせることで、こうしたマルチモーダル感情認識を実装することに試みている。

Affectivaは顔画像による感情認識の有名ベンチャー

MITメディアラボからのスピンオフベンチャーであるAffectivaは、感情認識分野では非常に有名なベンチャー企業だ。2009年に設立された同社は、感情認識を行うEmotion AIを開発。FACS（顔面動作符号化システム）理論という、顔面動作から感情ラベルを付与する長年確立された理論をもとに、顔画像から感情を判定する。

同社公開の動画への直リンク

世界87か国以上から収集された800万人以上の顔画像データを保有し、独自に構築されたディープラーニングを使って判定を行う。FACS理論に基づき定義された顔面動作を21種類に分類（例えば注視している、眉を上げる、など）。また、基本感情となる悲しみ、嫌悪、喜び、怒り、恐怖、軽蔑、驚き、という7種類を分類することができる。

近年はアプリケーション開発のために自動車用途へ展開しようとしており、Automotive AIという車内のドライバーのモニタリング技術を開発。車載カメラを使用して、複雑で微妙な感情や眠気や気晴らしなどの認知状態から、キャビンの状態、キャビン内のドライバーと乗員の状態をリアルタイムで測定する。

対話型AIを開発するベンチャーNuanceからのスピンオフであるセレンス

一方のセレンスは、対話型AIを開発するベンチャー企業のニュアンス（Nuance）の自動車向け部門がスピンオフしてできたベンチャー企業だ。なお、このNuance社であるが、最近マイクロソフトが買収することが明らかにされた。

セレンスは音声認識AIを自動車関連企業へ展開している。例えば、トヨタのコネテクティッドサービスのエージェント機能（音声対話サービス）に、クラウドベースの音声認識技術を提供していたり、メルセデス・ベンツの車載システム「MBUX（メルセデス・ベンツ・ユーザーエクスペリエンス）」の第2世代にも採用されている。

同社公開の動画への直リンク

さて、セレンスにおいても音声認識だけでなく、CES2020で発表された技術はマルチモーダル化が指向されている。音声認識、視線検出、タッチ、ジェスチャーを活用して、自然な車内体験を得られるように設計されている。いわゆるよくある、「ハイ、〇〇」のような音声AIと会話を始めるための、不自然なキックが不要な点などが特徴となっている。

2019年付近からマルチモーダルなHMIの共同開発を実施

両社の取り組みが公開されたのはCES2019である。この時、乗客の気分や倦怠感を把握しようとした車両が展示されていた。

AffectivaのAutomotive AIにより、車内のカメラを使用して、ドライバーの顔の表情と、セレンスのAIで声のトーンを分析。モビリティアシスタントがドライバーと乗客の認知状態と感情状態を理解できるようにしたことが両社の出発点となっている。

こうしたマルチモーダルな感情認識HMIは、ヨーロッパの大手自動車OEMとの研究プロジェクトが実施されていることが、2021年2月にポッドキャストでセレンスとAffectivaのトークで語られている（具体的な企業は不明）。

（補足）セレンスの音声認識AIがメルセデスのMBUXで採用されており、恐らくダイムラーが研究プロジェクトの相手であると推察される（あくまで推測）。

セレンスの担当者はこう述べている。
「私たちは、この人間と機械の相互作用がより「人間的」になることを想定しており、相互作用における人間性も理解できるように、機械を構築したいと考えています。これらの相互作用には、非常に重要な感情や気分が含まれます。私たちがそれらを理解することは、それらに力を与えます。テクノロジーが、人の幸福や欲求不満を理解できることは強力です。」

そして、ユースケースについても少し触れている。

「会議に向かう途中で車に乗っていると、突然、時間どおりに到着できない可能性があることに気づいたと想像してみてください。あなたは欲求不満になりますね。そしてもし、車がこの欲求不満を感じて心配を感じることができるなら、そのストレスのいくらかを軽減するのを助けるために、穏やかな方法でコミュニケーションすることによってドライバーをサポートできたらどうでしょうか？

そして、多くの車両アシスタントが感情的知性を示すもう1つの方法は、乗員に冗談を言うことです。もちろんユーモアは人によって異なります。しかし、システムがジョークを伝え、車両がそのジョークに対する反応を感知できる場合、AIを活用して、乗客が好むユーモアのタイプに合わせてジョークを調整することができます。これは、パーソナライズされたエクスペリエンスを作成するための1つのステップです。」

ー　技術アナリストの目　－
顔画像からの感情認識は実はややコモディティ化してしまっており、基本感情を読み取るアプリケーションは複数の企業がAPIで公開もしています。また、実際の用途開拓にもやや苦戦している印象があり、自動車分野ではトヨタがコンセプトカーにEyerisの感情認識AIを採用したことが数年前に話題になりましたが、それ以降、自動車業界において感情認識への取り組みはあまり大きな話題になることはありません。感情認識ではそれ自体で価格に上乗せできるわけではなく、あくまで中長期での人間と車両のコミュニケーションとしてのR&Dとして自動車OEMは取り組んでいるように見えます。実際にEyerisもその後ピボットし、現在はDMSに実装される車内センシングにフォーカスしています。感情認識自体はとても面白い技術ですが、業界全体として用途探索に苦労しているというのが現状です。