あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
F1000Res.2020;9:200. doi: 10.12688/f1000research.22639.1.Epub 2020-03-23.

全エクソームシークエンシングデータにおけるショートタンデムリピートジェノタイピングツールの精度

Accuracy of short tandem repeats genotyping tools in whole exome sequencing data.

  • Andreas Halman
  • Alicia Oshlack
PMID: 32665844 PMCID: PMC7327730. DOI: 10.12688/f1000research.22639.1.

抄録

短いタンデムリピートは、遺伝的変異の重要な源である。短いタンデムリピートは高度に変異しやすく、リピートの拡大はハンチントン病や脊髄小脳失調症など、多くのヒト疾患と関連しています。シーケンシング技術の進歩により、これらのリピートを大規模に解析することが可能になったが、正確な遺伝子型決定は未だに困難な課題である。我々は、4つの異なるショートタンデムリピートのジェノタイピングツールを全エクソームシークエンシングデータ上で比較し、それぞれのジェノタイピング性能と限界を決定した。 解析はSimons Simplex Collectionデータセットを用いて行い、男性サンプルのX染色体上でのホモ接合コールの割合によって決まる精度を持つ新規な評価方法を用いた。我々は、全エクソームシークエンシングデータ上でツールを評価するために、合計で433のサンプルと約100万のジェノタイプを分析しました。 その結果、3-6bpの長さの繰り返しをジェノタイピングする場合には、すべてのツールの性能は比較的良好であったが、カバレッジと品質スコアフィルタリングによって改善される可能性があった。しかし、ホモポリマーのジェノタイピングはすべてのツールで困難であり、カバレッジと品質スコアの異なるしきい値の間で高いエラー率が存在していた。興味深いことに、ジヌクレオチドリピートも同様に高いエラー率を示し、これは主にAC/TGリピートが原因であることが判明しました。全体的に、LobSTRは最も多くのコールを行うことができ、最速のツールでもありましたが、RepeatSeqとHipSTRは低いカバレッジで最も低いヘテロ接合エラー率を示しました。 すべてのツールには異なる長所と短所があり、その選択はアプリケーションに依存する可能性があります。この分析では、異なるフィルタリングパラメータを使用することの効果を示し、ジェノタイピングの最高の精度と最高のコール数との間のトレードオフに基づいた推奨を提供しました。

Short tandem repeats are an important source of genetic variation. They are highly mutable and repeat expansions are associated dozens of human disorders, such as Huntington's disease and spinocerebellar ataxias. Technical advantages in sequencing technology have made it possible to analyse these repeats at large scale; however, accurate genotyping is still a challenging task. We compared four different short tandem repeats genotyping tools on whole exome sequencing data to determine their genotyping performance and limits, which will aid other researchers in choosing a suitable tool and parameters for analysis. The analysis was performed on the Simons Simplex Collection dataset, where we used a novel method of evaluation with accuracy determined by the rate of homozygous calls on the X chromosome of male samples. In total we analysed 433 samples and around a million genotypes for evaluating tools on whole exome sequencing data. We determined a relatively good performance of all tools when genotyping repeats of 3-6 bp in length, which could be improved with coverage and quality score filtering. However, genotyping homopolymers was challenging for all tools and a high error rate was present across different thresholds of coverage and quality scores. Interestingly, dinucleotide repeats displayed a high error rate as well, which was found to be mainly caused by the AC/TG repeats. Overall, LobSTR was able to make the most calls and was also the fastest tool, while RepeatSeq and HipSTR exhibited the lowest heterozygous error rate at low coverage. All tools have different strengths and weaknesses and the choice may depend on the application. In this analysis we demonstrated the effect of using different filtering parameters and offered recommendations based on the trade-off between the best accuracy of genotyping and the highest number of calls.

Copyright: © 2020 Halman A and Oshlack A.