あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
PLoS Comput. Biol..2020 Jul;16(7):e1007992. PCOMPBIOL-D-19-01703. doi: 10.1371/journal.pcbi.1007992.Epub 2020-07-02.

連続的な聴覚知覚を駆動する複雑な音の特徴を脳に最適化して抽出する

Brain-optimized extraction of complex sound features that drive continuous auditory perception.

  • Julia Berezutskaya
  • Zachary V Freudenburg
  • Umut Güçlü
  • Marcel A J van Gerven
  • Nick F Ramsey
PMID: 32614826 DOI: 10.1371/journal.pcbi.1007992.

抄録

人間の脳が聴覚入力をどのように処理しているかを理解することは、依然として課題である。従来、低レベルと高レベルの音の特徴は区別されてきたが、その定義は特定の理論的枠組みに依存しており、音の神経表現とは一致していない可能性がある。ここでは、関連する音の特徴についての理論的な仮定を最小限にして、データに基づいた聴覚知覚の神経モデルを構築することで、代替的なアプローチを提供することができ、神経反応とよりよく一致する可能性があると仮定している。我々は、長時間の長編映画を鑑賞した6人の患者から心電図記録を収集した。生の映画のサウンドトラックは、関連する神経反応を予測するための人工ニューラルネットワークモデルを訓練するために使用された。このモデルは高い予測精度を達成し、新しい参加者が別の映画を視聴した2つ目のデータセットでも良好に一般化した。抽出されたボトムアップ特徴は、音の種類に固有の音響特性を捉えており、様々な応答潜時プロファイルと明確な皮質分布に関連していました。具体的には、いくつかの特徴は音声に関連した音響特性をコード化しており、いくつかの特徴は短い潜時プロファイルを示し、他の特徴は長い潜時プロファイルを示した(前周囲皮質の応答に関連した)。これらの結果は、視聴覚的な音声知覚の際には、大脳辺縁部に時間的な階層が存在し、この領域以外の皮質部位が関与していることを示すことで、音声知覚に関する現在の見解を支持し、拡張するものである。

Understanding how the human brain processes auditory input remains a challenge. Traditionally, a distinction between lower- and higher-level sound features is made, but their definition depends on a specific theoretical framework and might not match the neural representation of sound. Here, we postulate that constructing a data-driven neural model of auditory perception, with a minimum of theoretical assumptions about the relevant sound features, could provide an alternative approach and possibly a better match to the neural responses. We collected electrocorticography recordings from six patients who watched a long-duration feature film. The raw movie soundtrack was used to train an artificial neural network model to predict the associated neural responses. The model achieved high prediction accuracy and generalized well to a second dataset, where new participants watched a different film. The extracted bottom-up features captured acoustic properties that were specific to the type of sound and were associated with various response latency profiles and distinct cortical distributions. Specifically, several features encoded speech-related acoustic properties with some features exhibiting shorter latency profiles (associated with responses in posterior perisylvian cortex) and others exhibiting longer latency profiles (associated with responses in anterior perisylvian cortex). Our results support and extend the current view on speech perception by demonstrating the presence of temporal hierarchies in the perisylvian cortex and involvement of cortical sites outside of this region during audiovisual speech perception.