あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Neural Netw.2020 Jun;129:163-173. S0893-6080(20)30208-2. doi: 10.1016/j.neunet.2020.06.003.Epub 2020-06-05.

ロボットアームのための符号化プリミティブ生成ポリシー学習による逐次多タスク学習における破局的な忘却の克服

Encoding primitives generation policy learning for robotic arm to overcome catastrophic forgetting in sequential multi-tasks learning.

  • Fangzhou Xiong
  • Zhiyong Liu
  • Kaizhu Huang
  • Xu Yang
  • Hong Qiao
  • Amir Hussain
PMID: 32535306 DOI: 10.1016/j.neunet.2020.06.003.

抄録

継続学習は、人や動物に広く普及している能力であり、新しい知識や技能を継続的に学習・習得することを目的としている。継続学習では通常、エージェントが以前のタスク情報を記憶したり、アクセスしたりすることなく、異なるタスクを順次学習しようとすると、破局的な忘却が発生します。残念ながら、現在の学習システム、例えばニューラルネットワークは、新しいタスクを学習した後に、前のタスクで学習した重みを逸脱させる傾向があり、特に連続的なマルチタスクのシナリオでは、破局的な忘却を引き起こす可能性がある。この問題を解決するために、本論文では、ロボットの一連のタスクを連続的に学習することに焦点を当てて、破局的な忘却を克服することを提案する。特に、2つの要素からなる継続的な学習を可能にするために、新しい階層型ニューラルネットワークのフレームワークであるEncoding Primitives Generation Policy Learning (E-PGPL)を開発した。変分オートエンコーダーを用いて、元の状態空間を意味のある低次元の特徴空間に投影することで、代表的な状態プリミティブをサンプリングし、異なるタスクに対応するポリシーを学習することができる。新しいタスクを学習する際には、以前に学習したタスクを保護できるように、特徴空間は以前のものに近いものであることが要求される。いくつかの模擬ロボットタスクを用いた広範な実験により、我々の手法が連続的に到着するマルチタスクの制御方針を学習するために有効であることが実証され、他の継続的学習手法と比較して、特に多様性のあるタスクに対して大幅に改善された。

Continual learning, a widespread ability in people and animals, aims to learn and acquire new knowledge and skills continuously. Catastrophic forgetting usually occurs in continual learning when an agent attempts to learn different tasks sequentially without storing or accessing previous task information. Unfortunately, current learning systems, e.g., neural networks, are prone to deviate the weights learned in previous tasks after training new tasks, leading to catastrophic forgetting, especially in a sequential multi-tasks scenario. To address this problem, in this paper, we propose to overcome catastrophic forgetting with the focus on learning a series of robotic tasks sequentially. Particularly, a novel hierarchical neural network's framework called Encoding Primitives Generation Policy Learning (E-PGPL) is developed to enable continual learning with two components. By employing a variational autoencoder to project the original state space into a meaningful low-dimensional feature space, representative state primitives could be sampled to help learn corresponding policies for different tasks. In learning a new task, the feature space is required to be close to the previous ones so that previously learned tasks can be protected. Extensive experiments on several simulated robotic tasks demonstrate our method's efficacy to learn control policies for handling sequentially arriving multi-tasks, delivering improvement substantially over some other continual learning methods, especially for the tasks with more diversity.

Copyright © 2020 Elsevier Ltd. All rights reserved.