テスラがカンファレンスで語ったカメラベース自動運転の技術開発の取り組み

テスラはLiDARは使わず、カメラとレーダー、そして超音波センサを使って自動運転機能を実現している。そして最近、テスラはさらにカメラベースのセンシング方式を強化し、北米のモデル3とモデルYでレーダーを搭載しない車両もローンチし、「純粋なビジョンアプローチ」へと移行していくことを示している。

今回、CVPR2021（Conference on Computer Vision and Pattern Recognition：コンピュータービジョンとパターン認識のカンファレンス）で、テスラのAI部門のシニアディレクターであるAndrej Karpathy氏が約30分超のキーノートで、テスラの取り組みや考え方について様々な発表があった。Andrej氏の講演内容を中心に、テスラのビジョンアプローチの自動運転について振り返りたい。

カメラ・LiDAR・レーダーの違い

自動運転において重要な3つのセンサーと言われるカメラ・LiDAR・レーダーであるが、改めてこの3種のセンサーの特徴を振り返る。

カメラは3つの中でも特に自動運転において重要なセンサーであり、情報量が多い。物体の形状や色などを判別することができるため、白線の検出、信号の認識、標識の認識、走行可能エリアの識別などに使われる。扱うことができる情報量が多い一方で、夜間や悪天候による影響があったり、カメラの画像は平面データであるため、奥行き（距離情報）を扱うのに一工夫必要であることが短所だ。

そして以前からカメラと組み合わせて使われているのがレーダーだ。レーダーは、ミリ波という周波数帯が30GHz～300GHzの電磁波を使って物体・障害物検知に利用されている。電波を送信するアンテナと受信するアンテナによって構成されており、対象物から反射して受信した電波の差分から、距離を求めることができる。雨や霧などの外部環境変化に強く、長距離での物体検知が可能である一方で、分解能がそこまで高くないことが短所だ。

近年、数多くのベンチャー企業が開発に群がっているのがLiDARである。LiDARは940nmや1,550nmなどの近赤外のレーザーを走査して、物体からの反射波を読み取ることで物体の形状や位置をセンシングするものである。レーダーよりも分解能を上げることができ、物体形状などを正確に認識することもできる。一方でレーダー程外部環境にロバストではなく、自動運転シーンではレーダーが補完的に使われる。

テスラのビジョン方式とLiDAR×HDマップ方式

「テスラのカメラベースのビジョン方式と、他の自動運転企業が採用するLiDARを使った方式はアプローチが異なります。」とAndrej氏は語る。

業界の多くのプレーヤーはLiDARとHDマップを使ったアプローチを採用する。テスラの立場は、「これらは一見、自動運転の動作上は同じに見えるかもしれないが、システムのスケーラビリティの点で信じられない程異なる」と述べている。

LiDARを採用することで、車両周辺360°の範囲で正確に物体を知覚することができる。LiDARによって得られる点群（ポイントクラウド）は、環境を事前にマッピングし、高解像度のHDマップを作成する必要がある。このHDマップには車線や道路の接続方法、信号機などの情報が含まれている。そして、走行テストでこのHDマップをベースにローカライズしていく。

一方で、テスラは以下のスタンスで、スケーラビリティのあるアプローチを重要視している。

「私たちの製品は何百万人もの顧客規模であり、この高解像度HDマップをメンテナンスすることはスケーラブルではありません。インフラストラクチャを最新の状態に保つには、コストがかかるため、我々はビジョンベースのアプローチを採用しています。」

テスラは8つのカメラをベースにする（この間まではレーダーも含まれていた）。LiDARは使用せず、高解像度マップも使用しない。

「実際、過去数年間に構築してきたビジョンシステムは非常に優れており、多くのセンサーから離れていくようなものです。実際にはカメラは、あなたが車の中で見た知覚の点で大部分の重労働を行っています。」

レーダーも自動運転センサーから削除

すでに述べたように、テスラは最近、北米のモデル3とモデルYでレーダーを搭載しない自動車をローンチしている。「改善されていくビジョン認識技術がかなりの精度に到達したため、レーダーを搭載しない自動車の出荷を開始した。」とAndrej氏は述べている。

Andrej氏は、講演の中でこう語る。

「レーダーを削除した理由についてイーロンマスクがよく表現していますが、彼はレーダーとビジョンのどちらかの認識が一致しない場合があり、そのような場合にセンサーフュージョンを行うよりも、ビジョンを倍増させる方が精度が高いと述べています。」

レーダーとビジョンセンサの認識が一致しないケースの例として、道路上に登場する橋や道路と交差する物体を挙げている。レーダーは前方にいる車両については正確に認識を行うが、道路を交差する橋が出てきた時に、それを橋と認識することが難しく、突然偽の静止物体が出てきたと認識してしまい、ビジョンセンサにとってノイズになるという。

カメラで奥行計算を実現するアルゴリズム

さて、一方でビジョンセンサを単体で使うことによる課題は大まかに2点あり、①夜間・天候などの対応と、②奥行（深度）をどのようにセンシングするか、が論点となる。今回の講演では、①・②を大量データでの学習で課題克服していることが触れられている。特に深度の計算には多く説明がされていた。

テスラはAutoPilotに8つのカメラを使っている。

高速道路の自動運転走行中で特に重要になるのが、前方の対象物と距離を検知するためのフォワードカメラだ。テスラは3眼のカメラを使っており、メインフォワードカメラ（視認距離150m）、ワイドフォワードカメラ（視認距離60m、視野角120°の広角）、ナローフォワードカメラ（視認距離250m）の3種類を組み合わせている。

このカメラであるが、一般に奥行（距離）を検知することが苦手であり、そのためレーダーやLiDARのセンサーを組み合わせることが多い。またはカメラで距離を測定する場合は、ステレオカメラ（2つの異なる視野から物体を認識し、視差から距離を算定する）を使うこともある。スバルのアイサイトがこの方式を取っている。

一方でテスラは、3眼をステレオカメラのようには使わず、ディープニューラルネットワークによるカメラ画像認識によるアルゴリズムで距離を測定する。

Andrej氏はこう述べている。

「私たちが今やりたいことは、ビジョンのみを使用してこれら物体の予測品質を、レーダーを使った場合の品質と一致させたいということです。問題は、どのようにしてニューラルネットワークを通して深度・速度・加速度を直接予測し、レーダーによるセンシングと一致する非常に高い忠実度を実現するか、です。」

このためのポイントは「非常に大規模なアルゴリズム学習のためのデータセット」をいかに用意するか、となる。

大量の自動ラベリングされたデータセットでのロバストな学習

Andrej氏が語ったデータセットのポイントは以下3点だ。

1) Large（膨大なデータ量の確保）

2) Clean（ラベル付与された正確なデータ、そして速度・加速度・距離のデータ）

3) Diverse（標準的なシナリオとは異なる、数多くのエッジなイレギュラーケースのデータ）

自動ラベリングの技術

そしてとくに(1)の大量に、(2)のクリーンなデータを用意することに関してであるが、同社は大量の学習データを揃える上で、速度・加速度・深度に加えて物体が何であるかを認識するために、通常は人手で行う物体認識のラベリングを、ニューラルネットワークやカメラデータ・レーダーデータを使ってオフラインで自動で行う方法を確立した。これで大量にラベリングされたデータを用意することができる。Andrej氏はこれを”Offline tracker”と表現している。オフラインでラベリングを行えば、通常では展開できないような非常に大規模で重いニューラルネットワークを展開することができる。

イレギュラーケースの大量データセット

そして、(3)のDiverseに関わるが、この良くトレーニングされたニューラルネットワークは、例えば急に塵が舞う視界の悪い道で、目の前のトラックが視界でぼやけたとしても、塵が舞う前後でトラックであると認識し続けることができる。また、雪が降る悪天候の状態のデータセットなどでも目の前に走っているのが何かを認識することができる。こうした条件の悪い大規模なデータセットも学習に使用する。

更には、Andrej氏は今回のレーダーを削減するためのカメラのアルゴリズムを学習させるにあたり、221もの多様なシナリオを設定し、テスラの顧客による実走行データを使って、学習データセットを用意した。

実環境での走行でシャドウモードで測定→学習を実行

そして、既存の車両において、カメラベースのアルゴリズムをシャドウモードで実行してみて、外部環境を正確に認識できるかどうか判定し、学習を実行していく。シャドウモードとは、車の制御には接続せず、実際の車が走行している中でバックグラウンドで対象物の速度や距離の測定を実行することである。カメラとレーダーで判定した実際の制御に使っているデータと、バックグラウンドで実行しているカメラベースのデータの正解・不正解を見ていく。

同社は、今回レーダーを削減する上で、このシャドウモードでのトレーニングを7ラウンド回し、100万件のクリップデータ分（1.5ペタバイト）、60億個もの物体ラベルを学習に使ったという。

高速でアルゴリズム開発を実現する単一チームとスーパーコンピューター

高速でアルゴリズム開発を行うためのインフラや体制についても言及している。まず、テスラはオフラインで高速で大量の演算を行うために、自社でスーパーコンピューターを保有している。

このスーパーコンピューターは合計で5,760基のGPUsで構成され、1.8EFLOPSもの演算能力を持つ。驚くべきことに、現在最先端のスーパーコンピューターが持つ計算能力で数EFLOPSであり、同社が使える計算能力はそれに匹敵するものとなる。同社はコンピューターに大量の投資をしたと発言している。

また、テスラではレーダースタックの開発部門やセンサフュージョンの開発部門は無く、あくまでビジョンセンサを中心とした1つの開発チームしかないことを明らかにしている。同社は自動運転に重要なキーコンポーネントである統合ECUにおいても、自前の半導体チップを使用している。このように、コア領域に集中して垂直統合することでイノベーションスピードを最大限早めるのが同社のやり方だ。

垣間見えたスケーラブルな自動運転へのアプローチへのこだわり

今回、レーダーを削除してカメラベースのビジョン方式のアプローチに集中しているテスラであるが、そのスケーラブルで発展性のあるカメラベースへのこだわりが垣間見える講演内容だった。

まずは北米での生産分を対象としたレーダー削減であるが、今後同社の中でカメラベースのアプローチが拡がる方向にあるのは間違いない。

ちなみにイーロンマスクは、自身のTwitterでこのように語っている。

FSDベータ9は高速道路を走行するのにビジョンのみを使います。望ましくはベータ10（ベータ11では間違いなく）、1つのスタックを使って都市道路や高速道路、複雑な駐車場などの全てを支配します。
FSD beta 9 is using the pure vision production code for highway driving. Beta 10 hopefully (Beta 11 definitely) will use one stack to rule them all – city streets, highway & complex parking lots.
イーロンマスクのTwitterより

今回の講演内容はこちら

CVPR公開の動画への直リンク

世界のロボタクシーの動向やビジネスモデルに関するレビューなどについて特集しています。興味のある方はこちら。
参考：(特集) 社会実装が始まる世界のロボタクシー市場動向

ー　技術アナリストの目　－
スケーラブルな自動運転の供給を狙うテスラのカメラベースへのこだわり、そしてレーダーを削減するための多大な開発へのリソース投入と工夫が伺えました。WaymoやCruiseのように自動運転レベル4を開発する他のベンチャー企業とは異なり、すでに車両が大量に道路を走っていて、それらのリソースを学習と検証に使えるシャドウモードの話は同社の大きな特徴の1つです。また、大規模ニューラルネットワークの学習を可能な限り効率的にするためのオフラインでのラベリング技術など、様々な技術面での工夫の話がありました。同社の一挙手一投足が話題になりますが、またこうしたカンファレンスの講演については取り上げていきたいと思います。

【世界の自動運転技術の調査に興味がある方】

世界の自動運転システムを開発するベンチャー企業や、LiDAR、カメラ、レーダーなどの主要センサコンポーネントのベンチャー技術開発動向などの調査に興味がある方はこちら。

詳細：先端技術調査・リサーチはこちら