あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
IEEE Trans Neural Netw Learn Syst.2020 Jul;PP. doi: 10.1109/TNNLS.2020.3004893.Epub 2020-07-16.

モデルガイドデモを用いた深層強化学習による衝突回避を伴うフォーメーション制御

Formation Control With Collision Avoidance Through Deep Reinforcement Learning Using Model-Guided Demonstration.

  • Zezhi Sui
  • Zhiqiang Pu
  • Jianqiang Yi
  • Shiguang Wu
PMID: 32673195 DOI: 10.1109/TNNLS.2020.3004893.

抄録

不確実な動的環境下での衝突のない時間効率の良い経路の生成は、リーダー・フォロワー構造における衝突回避を伴うフォーメーション制御(FCCA)問題に大きな課題を与えている。特に、フォロワーは陣形維持と衝突回避の両方を同時に考慮しなければならない。残念ながら、既存の手法の多くは、この2つの問題を別々に扱う手法の単純な組み合わせである。本論文では、深層強化学習(RL)に基づく新しい手法を提案し、FCCAの問題を解決する。特に、学習に基づく政策を陣形制御の分野に拡張し、模倣学習(IL)とその後のRLの2段階の学習フレームワークを含む。IL段階では、コンセンサス理論に基づいたフォーメーションコントローラと最適な相互衝突回避戦略からなるモデルガイド方式を採用し、訓練の高速化と効率化を図っている。RL段階では、複合報酬関数を提示して訓練を誘導する。また、環境を知覚するためのフォーメーション指向のネットワーク構造を設計する。不確実な数の障害物の情報をネットワーク構造が知覚できるように長短期記憶を採用し、異なるシナリオでのネットワークの一般化を向上させるために伝達訓練アプローチを採用している。数多くの代表的なシミュレーションを実施し、本手法を多方向車システムをベースとした実験プラットフォームに展開した。提案手法の有効性と実用性については、シミュレーションと実験の両方の結果から検証した。

Generating collision-free, time-efficient paths in an uncertain dynamic environment poses huge challenges for the formation control with collision avoidance (FCCA) problem in a leader-follower structure. In particular, the followers have to take both formation maintenance and collision avoidance into account simultaneously. Unfortunately, most of the existing works are simple combinations of methods dealing with the two problems separately. In this article, a new method based on deep reinforcement learning (RL) is proposed to solve the problem of FCCA. Especially, the learning-based policy is extended to the field of formation control, which involves a two-stage training framework: an imitation learning (IL) and later an RL. In the IL stage, a model-guided method consisting of a consensus theory-based formation controller and an optimal reciprocal collision avoidance strategy is designed to speed up training and increase efficiency. In the RL stage, a compound reward function is presented to guide the training. In addition, we design a formation-oriented network structure to perceive the environment. Long short-term memory is adopted to enable the network structure to perceive the information of obstacles of an uncertain number, and a transfer training approach is adopted to improve the generalization of the network in different scenarios. Numerous representative simulations are conducted, and our method is further deployed to an experimental platform based on a multiomnidirectional-wheeled car system. The effectiveness and practicability of our proposed method are validated through both the simulation and experiment results.