ニュース

三菱電機、世界初の「シーン・アウェア インタラクション技術」開発

独自のEnd-to-End深層学習で人と機器の円滑な意思疎通を実現

2020年7月22日 発表

シーン・アウェア インタラクション技術の概要。経路案内システムへの適用例

 三菱電機は7月22日、世界初というAIを活用した技術「シーン・アウェア インタラクション(Scene-Aware Interaction)技術」を開発したと発表した。

 シーン・アウェア インタラクション技術は、同社AI技術「Maisart(マイサート:Mitsubishi Electric’s AI creates the State-of-the-ART in technology)」を用いて、車載機器やロボットなどのさまざまな機器が複数のセンサーを用いて収集した情報(マルチモーダルセンシング情報)から周囲の状況を理解し、人と自然な言葉で円滑な意思疎通ができる技術。

 今回、同社は同技術の適用に向けたアプリケーションの1つとして、同技術を用いて、人と車載機器が周囲の物体や出来事について自然な言葉で共有できる経路案内システムを構築した。

経路案内のイメージ図
警告のイメージ図

 同開発技術ではカメラ画像を用いて、「郵便ポストの手前で右に曲がってください」といった、従来の経路案内では地図情報には含まれていない「郵便ポスト」などユーザーが認識する実際の状況に応じた経路案内を生成することが可能になり、さらに周囲の車両や歩行者、自転車などの進行方向が自車の進行方向と交差し事故につながるおそれがある場合、「歩行者が道を渡ろうとしています」など音声警告を生成することも可能になったとしている。

シーン・アウェア インタラクション技術開発の特長

 シーン・アウェア インタラクション技術では、入出力のサンプルだけで学習できる End-to-End(エンドツーエンド)深層学習を採用し、カメラで撮影した画像情報、マイクロフォンで集音した音響情報、ライダーやレーダーで取得した位置情報などのマルチモーダルセンシング情報から、周囲で起きている状況を機器が理解する。

 マルチモーダルセンシング情報の中で重要度の高い情報に自動で重み付けを行なう独自のマルチモーダル・アテンション法を用いて、機器が理解した内容に対して自然な言葉を用いて詳細に表現するような学習モデルを構築する。

 機器が理解したこれまでの状況や人の発話の履歴から自然な言葉を生成することで、人と機器との円滑な意思疎通を実現。従来の視覚情報のみの手法と比較し、CIDEr(Consensus-Based Image Description Evaluation)での評価を29%改善させたとしている。

 同社では、今後の展開として状況理解に基づき人間と言葉で意思疎通できる車載機器や人間の音声指示で動作するFA機器、共同作業者や遠隔地の監督者と口頭での意思疎通ができるロボット、家族が同居しているかのような生活管理や緊急対応のできる見守りサービス、周囲の状況を踏まえて具体的な行動を指示でき、ソーシャルディスタンスの確保などに役立つ音声警告システム、公共エリアに設置された機器が利用者の状況と口頭指示に応じて反応するタッチレスシステムなどへの適用を目指すとしている。