【特集】感情や感性を扱うコンピューターの技術「Affective Computing」とは

感情や感性を扱うコンピューターの技術「Affective Computing」という領域がある。近年、顔画像解析を中心とした感情認識技術やAI技術の発達に伴い、Affective Computingの領域が注目されている。

将来、機械が高度化するにつれて、人間と機械がコミュニケーションやインタラクションを行う機会が増えていく。その時の高度なHMI（ヒューマンマシンインターフェース）を実現する1つの要素技術がAffective Computingだ。

今回はそのAffective Computingの概要について紹介したい。

Affective Computingとは？

Affective Computingとは、Affective（感情的な）・Computing（計算する）という二つの言葉を組み合わせて作られた造語である。1997年にMIT Media LabのRosalind Picard（ロザリンド・ピカード）教授が、その著書「Affective Computing」で提唱し、その言葉が広まった。RosalindはAffective Computingについてこう言っている。

According to Rosalind Picard, if we want computers to be genuinely intelligent and to interact naturally with us, we must give computers the ability to recognize, understand, even to have and express emotions.
ロザリンド・ピカードによると、「我々がコンピューターに真の知性を求めるなら、そして我々と自然なインタラクションを求めるのであれば、我々はコンピューターに感情の認識・理解、そして感情を持ち、表現する能力を与える必要がある。」
MITPress Affective Computingの書籍紹介より

Affective Computingという言葉が知られる前よりこうした分野の研究は長く大学研究機関で続けられてきた。その対象領域は厳密には曖昧であり、関連する分野は多岐に渡る。

以下の領域に感情が関連するもの

音声認識
ジェスチャー認識
顔特徴抽出、表情解析
ウェアラブルによる感情解析
ロボットと人間のコミュニケーション
ソーシャルエージェント　等

Affective Computingの応用分野・市場

同分野は将来的な成長が期待される一方で、現時点でのアプリケーションは一部に留まっているように見える。いくつかの短中期的な市場を挙げると以下のような分野である。

広告分野
エンタメの映像や広告映像を見ている人の表情を解析することで、その広告や宣伝が人の感情にどのように影響を与えるのかを分析。その結果を使ってクリエイティブに活かす領域。いくつかのスタートアップはこの領域でサービスを提供している。

コールセンター・カスタマーサポート分野
コールセンターなどで電話越しに音声を解析し、会話をしている人の感情やムードを解析し、電話対応している従業員がチェックしたり、後からデータを解析して対応の仕方についてフィードバックをするもの。いくつかの海外の大手保険会社が導入していると言われる。

自動車分野
自動車分野ではインターフェースの1つとして音声認識が搭載され始めている。コンセプトカーなどで発表されているように、将来的には音声や画像などから、感情認識などの人間をより理解するための機能が搭載されることが可能性として示されている。過去に発表されたトヨタのTOYOTA Concept-愛iでも、ドライバーの嗜好や気持ちを踏まえて、先回りした提案を行うなどが想定されている。

ヘルスケア分野
例えば自閉症やADHDの子供に対して、社会的感情的スキルを教えるのに使うサポートツールとして、感情認識が使われているケースがある。BrainPower社（米国）はウェアラブルグラスを使ったデバイスとAffectiva社から提供される感情認識アルゴリズムによって、こうした分野に取り組んでいる。他にもアルツハイマーの領域でこうした技術が活用できないか模索する研究や動きがある。

スマート家電・IoT家電
2019年11月にAmazonアレクサの開発向け機能に、感情を付けたスピーチを作成する機能が追加された。これは幸せ/興奮という2軸×3つの強度でスピーチに抑揚をつける機能である。現時点では感情認識ではなく、発話機能であるが、Amazonは他にもアレクサによる感情認識の研究を行っていることが明らかとなっている（参考記事）。
_{注）ただし、Amazonは明確に家電向けで感情認識機能を搭載すると言っているわけではなく、現時点でこの用途は、将来的に搭載が推測されるもの、という位置づけに過ぎない。}

大手企業における感情認識技術領域の動き

大手企業はIT系を中心に感情認識技術に取り組んでいる。

Apple：感情認識ベンチャーのEmotinent（米国）を買収

Appleは、2016年に米国ベンチャーのEmotinentを買収した（Appleからの公式の発表はないが、様々なメディアで取り上げられている）。Emotinentはカリフォルニア　サンディエゴ校のMachine Perception Lab発の大学発ベンチャーである。人の表情を画像から解析して、感情を分析する技術を手掛けていた。個人や群衆の表情を読み取り、広告による視聴者の反応を評価したり、医者が患者の痛みの兆候をよりよく理解したりするために使用することを狙っていたという。

Amazon：ウェアラブルやAmazon Echoによる感情認識を研究

Amazonは感情認識に関する研究開発についてあまり多くをオープンにしていないが、その動きの一端を垣間見ることができる。

2017年には傘下のAmazon Technologies Incにより、関連特許が出願され話題になった。Voice-based determination of physical and emotional characteristics of users（声によるユーザーの身体的および感情的特徴の決定、US10096319B1）というこの特許は2018年10月に取得されている。

また、ブルームバーグによると2019年にAmazonがデバイスを使った感情認識技術に取り組むプロジェクトがあると指摘されている（参考記事）。

2019年8月には、AWS上で動くAmazon Rekognitionという顔認識ソフトウェアのアップデートで、検出可能な感情に「恐れ」が追加されたことも話題になった。このアップデートでは「幸せ」「悲しみ」「怒り」「驚き」「うんざり」「おだやか」「困惑」という7つの感情の精度が向上し、8つ目の「恐れ」が追加されたという（参考記事）。

IBM・Microsoft等：感情認識ツールをプラットフォームとして提供

IBMやMicrosoft等のIT大手プレーヤーも顔画像解析の一環で、感情認識ツールをプラットフォームとして提供している。おおよそ2016年付近あたりから各社取り組んでいる。

各社とも、基本的には「怒り、悲しみ、うんざり、幸せ、恐れ、中立」といった、表面に出てくる基本的な感情状態を判定するものであり、技術の大枠には大きな違いは無いように見える。

その他：自動車系OEMは感情認識をコンセプトカーで採用する動き

また、自動車系のプレーヤーは車載における音声認識システムの一歩超えたインターフェースを実現するため、感情認識技術をテストしている。

元々、この領域は、トヨタが2017年にコンセプトカー「TOYOTA Concept-愛i」で、感情認識技術を搭載し、人を理解する技術ということで紹介されたことで話題になった。なお、この時トヨタが採用したのは海外ベンチャーEyeris社の感情認識技術であった。一方その後、トヨタが2019年に発表したコンセプトカー「LQ」では、引き続き感情認識技術は搭載されているものの、米国非営利の研究開発組織であるSRIが開発したEmotional AIが搭載されたことをSRI Internationalがリリースで発表している。

しかし、こうした動きは自動車業界においてもごく一部に留まる。現時点では感情認識という次世代のインターフェースという側面よりも、ドライバーの眠気検知などのDMS（ドライバーモニタリングシステム）といったマシンビジョンの機能で安全性を高める、という側面が強い。

感情認識における現段階の技術の限界と可能性

現時点において実用化されている感情認識の技術の多くは、1970年代に心理学者のPaul Ekmanらが開発した表情理論であるFACS（Facial Action Coding System）をベースに発展している。特にこのFACSを使った表情解析により感情認識を行う代表的な企業が米国MIT Lab発ベンチャーのAffectivaである。Affectivaは世界87か国以上から収集された800万人以上の顔画像データを使った感情認識アルゴリズムを構築している。

基本的には大手企業も含めて、現状の感情認識ツールのほとんどが顔画像を解析したものであり、「怒り、悲しみ、うんざり、幸せ、恐れ、中立」といった基本感情と言われる状態を判定する。各社のツールに大きな違いはなく、ツールによって特定のパラメーターが検出しやすいなどの得意・不得意分野があったりする。（例えば各社の検出精度の違いを調べた記事もある　_{注：この記事は同じく感情認識ツールを提供するNeurodata Labが独自に調査比較したものであり、必ずしも中立的な評価を示したものではない点は注意}）

一方で、こうした現状の感情認識というのはあくまで顔の表情から推測するものであり、必ずしも感情が表に出ない場合もある。こうした隠れた感情の認識や、より複雑な感情をセンシングするために、顔画像だけではない、声や生体データなどと組み合わせたマルチモーダルな感情認識に取り組む動きもある。例えば、前述のAffectiva社と、会話型AIを開発するNuance社が顔と声によるマルチモーダル感情認識の協業を2018年6月に発表している。

まだ本格的に市場化されていないこうした感情認識であるが、今後の技術的な発展に注目だ。

－　筆者の目　－
Affective Computingはまだ萌芽期であり、本格的なアプリケーションは登場していないように見える。市場調査会社が発表するレポートでは市場規模が大きいように発表されているが、これには感情には踏み込まない「表情解析」「音声解析」といった既存市場も含まれる。純粋にこうした感情認識のアプリケーションという意味では、先行するのは一部の広告・マーケティング分野やコールセンターの分野となっている。中長期では音声認識にこうした技術が搭載され、機械・ロボット・車両と人間とのインタラクションを高度なものにしていくための1つの重要な要素技術となるが、まだ時間はかかるため、長い目で今後の技術開発を見ていきたい。