あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
J Neural Eng.2020 Jul;doi: 10.1088/1741-2552/aba6d9.Epub 2020-07-16.

分布学習による運動適応

Motor adaptation via distributional learning.

  • Brian Mitchell
  • Michelle Marneweck
  • Scott Grafton
  • Linda Petzold
PMID: 32674091 DOI: 10.1088/1741-2552/aba6d9.

抄録

人工的なコントローラも生物学的なコントローラも、学習中に確率的に分布する誤差を経験する。我々は、誤差の分布をモデル化し、これらの分布の偏差を神経活動に関連付けるためのフレームワークを開発する。我々が考える生物学的システムは、人間の被験者が、重量が不均衡な(すなわち、物体の片側がもう片側よりも重い)逆T字型物体のリフト中のロールを最小化することを学習することを要求される課題である。また、この過程でのBOLD活動も収集しています。実験設定では、システムの状態をリフト開始後の物体の最大振幅のロールと定義し、被験者にゼロ状態を達成することを目標とする。我々は、時間差学習の変形からこの問題のモデルを導出する。このモデルを、報酬を確率的なものとして扱うことで価値分布を定義するフレームワークであるDistributional Reinforcement Learning (DRL)と組み合わせる。このモデルは、目標状態を達成することから、目標状態からの距離上の分布を達成することにコントローラの目標を変換します。我々はこれをDistributional Temporal Difference Model (DTDM)と呼ぶ。DTDMを用いることで、アンバランスな物体の質量中心が変化したときの値の分布の偏差を用いて、物体のロールをうまく最小化できなかったときの誤差をモデル化することができる。我々は大域的な神経活動の偏差を計算し、その偏差が値分布の偏差に伴って連続的に変化することを示す。この大域的なシフトや信号の違いには、リフト開始時の把持力やリフト力の違い、リフト開始後のエラー/ロールの感覚フィードバックなど、さまざまな側面が関与していると考えられます。私たちは、これらの情報をすべて取り入れたエラーに対する協調的でグローバルな反応が存在し、それがDTDMの目的をコード化し、その後の試験で成功を可能にするために使用されることを予測しています。我々は、同様の問題を解決するためにロボットコントローラを開発するためにDTDMを使用することで、生物学的適応のモデルとしてのDTDMの有用性を検証する。本研究では、新しい理論的枠組みを開発し、それを用いて自明な運動学習課題のモデル化が可能であることを示した。この理論的枠組みは最先端の強化学習と一致しているため、同様のタスクを実行するためのロボットのプログラムにも利用できる。これらの結果は、大域的な神経活動を構成する複数のサブシステムをモデル化する方法を示唆しており、工学的人工知能への応用が期待される。

Both artificial and biological controllers experience errors during learning that are probabilistically distributed. We develop a framework for modeling distributions of errors and relating deviations in these distributions to neural activity. The biological system we consider is a task where human subjects are required to learn to minimize the roll of an inverted T-shaped object with an unbalanced weight (i.e. one side of the object is heavier than the other side) during lift. We also collect BOLD activity during this process. For our experimental setup, we define the state of the system to be the maximum magnitude roll of the object after lift onset and give subjects the goal of achieving the zero state. We derive a model for this problem from a variant of Temporal Difference Learning. We then combine this model with Distributional Reinforcement Learning (DRL), a framework that involves defining a value distribution by treating the reward as stochastic. This model transforms the goal of the controller from achieving a target state, to achieving a distribution over distances from the target state. We call it a Distributional Temporal Difference Model (DTDM). The DTDM allows us to model errors in unsuccessfully minimizing object roll using deviations in the value distribution when the center of mass of the unbalanced object is changed. We compute deviations in global neural activity and show that they vary continuously with deviations in the value distribution. Different aspects might contribute to this global shift or signal difference, including a difference in grasp and lift force at lift onset, as well as sensory feedback of error/roll after lift onset. We predict that there exists a coordinated, global response to errors that incorporates all of this information, which is encoding the DTDM objective and used on subsequent trials enabling success. We validate the utility of the DTDM as a model for biological adaptation by using it to engineer a robotic controller to solve a similar problem. We develop a novel theoretical framework and show that it can be used to model a non-trivial motor learning task. Because this theoretical framework is consistent with state-of-the-art reinforcement learning, we can also use it to program a robot to perform a similar task. These results suggest a way to model the multiple subsystems composing global neural activity in a way that transfers well to engineering artificial intelligence.

© 2020 IOP Publishing Ltd.