日本語AIでPubMedを検索
医療の根拠となる真実の信頼性を評価するための新しい尺度の導入
Introducing New Measures of Inter- and Intra-Rater Agreement to Assess the Reliability of Medical Ground Truth.
PMID: 32570391 DOI: 10.3233/SHTI200167.
抄録
本論文では、機械学習モデルの基底真理の生成において一般的な複数の評価者の設定において、評価者の信頼性、ひいてはラベリングの信頼性を評価するために、評価者間および評価者内の一致度の2つの新しい尺度を提示し、議論する。我々の提案は、他の既存の一致度指標よりも保守的である。それは、関与する単一の評価者の精度(または信頼性)の経験的な推定に基づいて、偶然の一致というより明確な概念を考慮しているからである。我々は、MRNetデータセットのラベリングに13人の放射線専門医が関与した現実的なアノテーションタスクに照らし合わせて、この尺度について議論している。
In this paper, we present and discuss two new measures of inter- and intra-rater agreement to assess the reliability of the raters, and hence of their labeling, in multi-rater setings, which are common in the production of ground truth for machine learning models. Our proposal is more conservative of other existing agreement measures, as it considers a more articulated notion of agreement by chance, based on an empirical estimation of the precision (or reliability) of the single raters involved. We discuss the measures in light of a realistic annotation tasks that involved 13 expert radiologists in labeling the MRNet dataset.