あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Front Microbiol.2022;13:886201.

データ補強と機械学習を用いたクラス不均衡な唾液マイクロバイオームデータからの喫煙習慣の予測

Prediction of Smoking Habits From Class-Imbalanced Saliva Microbiome Data Using Data Augmentation and Machine Learning.

PMID: 35928158

抄録

ヒトマイクロバイオーム研究は、特性解析や関連性研究から、医学研究、臨床診断などのトランスレーショナルアプリケーションへと移行しています。これらの応用の1つは人間の形質の予測であり、そこでは機械学習(ML)手法がしばしば採用されるが、実用的な課題に直面している。利用可能なマイクロバイオームデータにおけるクラスの不均衡は大きな問題の一つであり、これが考慮されていない場合、偽の予測精度につながり、分類器の汎化性が制限される。ここでは、クラスインバランスを考慮したデータ補強技術とML法を組み合わせた予測により、クラスインバランスのある唾液マイクロバイオームデータから喫煙習慣の予測可能性を検討した。我々は一般に公開されている唾液の16S rRNA遺伝子配列データと喫煙習慣のメタデータを収集し、175人の喫煙者と1070人の非喫煙者という深刻なクラスインバランスの問題があることを示した。3つのデータ補強技術(合成少数派オーバーサンプリング技術、適応型合成、木ベースの連想データ補強)を、7つのML手法(ロジスティック回帰、k-nearest neighbors、線形および放射状カーネルを持つサポートベクター機械、決定木、ランダムフォレスト、extreme gradient boosting)とともに適用した。K-foldネスティッドクロスバリデーションは、異なるタイプの拡張データとベースラインの非拡張データを用いて予測結果を検証するために使用された。データ拡張とMLを組み合わせることで、我々のデータセットでは一般的にベースラインの手法よりも優れた結果が得られた。最終的な予測モデルは、木ベースの連想データ増強と線形カーネルを用いたサポートベクターマシンを組み合わせ、マシューズの相関係数0.36とAUC0.81で表される分類性能を達成した。本手法は、マイクロバイオームデータにおけるクラスの不均衡の問題を解決し、信頼性の高い喫煙習慣の予測に成功した。

Human microbiome research is moving from characterization and association studies to translational applications in medical research, clinical diagnostics, and others. One of these applications is the prediction of human traits, where machine learning (ML) methods are often employed, but face practical challenges. Class imbalance in available microbiome data is one of the major problems, which, if unaccounted for, leads to spurious prediction accuracies and limits the classifier's generalization. Here, we investigated the predictability of smoking habits from class-imbalanced saliva microbiome data by combining data augmentation techniques to account for class imbalance with ML methods for prediction. We collected publicly available saliva 16S rRNA gene sequencing data and smoking habit metadata demonstrating a serious class imbalance problem, i.e., 175 current vs. 1,070 non-current smokers. Three data augmentation techniques (synthetic minority over-sampling technique, adaptive synthetic, and tree-based associative data augmentation) were applied together with seven ML methods: logistic regression, k-nearest neighbors, support vector machine with linear and radial kernels, decision trees, random forest, and extreme gradient boosting. K-fold nested cross-validation was used with the different augmented data types and baseline non-augmented data to validate the prediction outcome. Combining data augmentation with ML generally outperformed baseline methods in our dataset. The final prediction model combined tree-based associative data augmentation and support vector machine with linear kernel, and achieved a classification performance expressed as Matthews correlation coefficient of 0.36 and AUC of 0.81. Our method successfully addresses the problem of class imbalance in microbiome data for reliable prediction of smoking habits.