あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Bioinformatics.2020 Jul;36(Supplement_1):i39-i47. 5870478. doi: 10.1093/bioinformatics/btaa477.

IDMIL: 全メタゲノムデータから疾患を予測するためのアラインメントフリーの解釈可能なディープマルチインスタンス学習(MIL)

IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data.

  • Mohammad Arifur Rahman
  • Huzefa Rangwala
PMID: 32657370 DOI: 10.1093/bioinformatics/btaa477.

抄録

モチベーション:

人体には、人間の細胞よりも多くの微生物が宿っている。この微生物の多様性を分析することで、これらの微生物が人間の健康に果たす役割についての重要な知見が得られます。メタゲノミクスとは、環境試料や宿主に共存する微生物のDNA配列をまとめて解析することです。これは、精密医学、農業、環境科学、法医学などに応用されています。メタゲノムデータから表現型を予測するための最新の予測モデルは、アラインメント、アセンブリ、大規模な剪定、分類学的プロファイリング、および参照配列データベースに依存しています。これらのプロセスは時間がかかる上に、参照ゲノムとのアラインメント時に新規微生物配列を考慮していないため、メタゲノム全体の可能性を制限している。我々は、一般的な教師付き学習パラダイムであるMultiple Instance Learning (MIL)を用いて、全メタゲノムデータからヒトの疾患を予測する問題を定式化した。我々が提案するアライメントフリーアプローチは、MILの枠組みの中で深層畳み込みニューラルネットワーク(CNN)の能力を利用することで、より高い精度の予測を可能にし、ニューラルアテンション機構を介した解釈可能性を提供する。

MOTIVATION: The human body hosts more microbial organisms than human cells. Analysis of this microbial diversity provides key insight into the role played by these microorganisms on human health. Metagenomics is the collective DNA sequencing of coexisting microbial organisms in an environmental sample or a host. This has several applications in precision medicine, agriculture, environmental science and forensics. State-of-the-art predictive models for phenotype predictions from metagenomic data rely on alignments, assembly, extensive pruning, taxonomic profiling and reference sequence databases. These processes are time consuming and they do not consider novel microbial sequences when aligned with the reference genome, limiting the potential of whole metagenomics. We formulate the problem of predicting human disease from whole-metagenomic data using Multiple Instance Learning (MIL), a popular supervised learning paradigm. Our proposed alignment-free approach provides higher accuracy in prediction by harnessing the capability of deep convolutional neural network (CNN) within a MIL framework and provides interpretability via neural attention mechanism.

結果:

MIL定式化とディープCNNの階層的特徴抽出機能を組み合わせることで、既存の一般的なアプローチと比較して有意に優れた予測性能を提供します。注意メカニズムにより、疾患との関連性が高いと思われる配列群を特定することができ、必要とされる解釈を提供することができる。我々の提案するアプローチは、アラインメント、アセンブリ、参照配列データベースに依存しないため、大規模なメタゲノムデータに対して高速かつスケーラブルである。また、本研究では、大規模なメタゲノム研究の結果を用いて評価を行い、提案するアプローチが疾患予測のための比較可能な最先端の手法よりも優れていることを示しています。

RESULTS: The MIL formulation combined with the hierarchical feature extraction capability of deep-CNN provides significantly better predictive performance compared to popular existing approaches. The attention mechanism allows for the identification of groups of sequences that are likely to be correlated to diseases providing the much-needed interpretation. Our proposed approach does not rely on alignment, assembly and reference sequence databases; making it fast and scalable for large-scale metagenomic data. We evaluate our method on well-known large-scale metagenomic studies and show that our proposed approach outperforms comparative state-of-the-art methods for disease prediction.

利用可能性と実装:

https://github.com/mrahma23/IDMIL。

AVAILABILITY AND IMPLEMENTATION: https://github.com/mrahma23/IDMIL.

© The Author(s) 2020. Published by Oxford University Press.