あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
PLoS ONE.2020;15(3):e0230536. PONE-D-19-33176. doi: 10.1371/journal.pone.0230536.Epub 2020-03-26.

遺伝子発現データを用いたがん生存予測のための畳み込みニューラルネットワークによる伝達学習

Transfer learning with convolutional neural networks for cancer survival prediction using gene-expression data.

  • Guillermo López-García
  • José M Jerez
  • Leonardo Franco
  • Francisco J Veredas
PMID: 32214348 PMCID: PMC7098575. DOI: 10.1371/journal.pone.0230536.

抄録

腫瘍学における精密医療は、患者の状態や予後を正確に推定するために、異質な情報源からデータを取得することを目的としています。個別化医療の枠組みに進むためには、正確な診断を行うことで、個々の症例の特異性に合わせたより効果的な治療法を処方することが可能になります。ここ数年、次世代シーケンシングは、RNA-seqハイスループットプラットフォームから圧倒的な量の遺伝子発現データを医師に提供することで、がん研究を推進してきました。このような状況の中で、データマイニングや機械学習技術は、実データに基づいた意思決定を支援するための計算モデルを提供することで、遺伝子発現データ解析に広く貢献してきました。しかし、既存の公開されている遺伝子発現データベースは、数千分の1オーダーの膨大な遺伝子数と数百分の1オーダーのサンプル数とのバランスが悪いのが特徴です。派生するオーバーフィットの問題を克服するために、多様な特徴の選択と抽出戦略が伝統的に適用されてきたにもかかわらず、標準的な機械学習パイプラインの有効性は、フォローアップのエンドポイントや患者の生存率のような関連する臨床転帰の予測には、満足のいくものではありません。本研究では、公開されているPan-Cancerデータセットを用いて、31種類の腫瘍からの数千の遺伝子発現サンプルからなるサブセットを用いて、生存予測のための畳み込みニューラルネットワークアーキテクチャの事前学習を行った。結果として得られたアーキテクチャは、その後、肺がんの無増悪間隔を予測するために微調整される。遺伝子発現データへの畳み込みネットワークの適用には、これらのデータの非構造化の性質に起因する多くの制限がある。本研究では、RNA-seqデータを遺伝子発現画像に変換し、そこから畳み込みネットワークを用いて高レベルの特徴を抽出することで、RNA-seqデータを再配列する方法を提案する。また、他の機械学習アプローチと比較して、他の腫瘍型サンプルから抽出した情報を活用することで、肺がんの進行予測を向上させる高レベル特徴量の抽出に寄与するかどうかを検討している。

Precision medicine in oncology aims at obtaining data from heterogeneous sources to have a precise estimation of a given patient's state and prognosis. With the purpose of advancing to personalized medicine framework, accurate diagnoses allow prescription of more effective treatments adapted to the specificities of each individual case. In the last years, next-generation sequencing has impelled cancer research by providing physicians with an overwhelming amount of gene-expression data from RNA-seq high-throughput platforms. In this scenario, data mining and machine learning techniques have widely contribute to gene-expression data analysis by supplying computational models to supporting decision-making on real-world data. Nevertheless, existing public gene-expression databases are characterized by the unfavorable imbalance between the huge number of genes (in the order of tenths of thousands) and the small number of samples (in the order of a few hundreds) available. Despite diverse feature selection and extraction strategies have been traditionally applied to surpass derived over-fitting issues, the efficacy of standard machine learning pipelines is far from being satisfactory for the prediction of relevant clinical outcomes like follow-up end-points or patient's survival. Using the public Pan-Cancer dataset, in this study we pre-train convolutional neural network architectures for survival prediction on a subset composed of thousands of gene-expression samples from thirty-one tumor types. The resulting architectures are subsequently fine-tuned to predict lung cancer progression-free interval. The application of convolutional networks to gene-expression data has many limitations, derived from the unstructured nature of these data. In this work we propose a methodology to rearrange RNA-seq data by transforming RNA-seq samples into gene-expression images, from which convolutional networks can extract high-level features. As an additional objective, we investigate whether leveraging the information extracted from other tumor-type samples contributes to the extraction of high-level features that improve lung cancer progression prediction, compared to other machine learning approaches.