日本語AIでPubMedを検索
歯内療法の痛みに関する患者の質問に対応するための大規模言語モデルの評価:アクセス可能なチャットボットの比較分析
Evaluating Large Language Models in Addressing Patient Questions on Endodontic Pain: A Comparative Analysis of Accessible Chatbots.
PMID: 40334976
抄録
はじめに:
患者が健康関連情報のために大規模言語モデルを使用することが増えているが、その信頼性と有用性については依然として議論の余地がある。患者教育におけるチャットボットの役割を評価するためには、継続的な評価が不可欠である。本研究では、歯内療法の痛みに関する患者からの問い合わせに対するChatGPT-3.5とGeminiのパフォーマンスを評価する。
INTRODUCTION: Patients increasingly use large language models for health-related information, but their reliability and usefulness remain controversial. Continuous assessment is essential to evaluate their role in patient education. This study evaluates the performance of ChatGPT-3.5 and Gemini in answering patient inquiries about endodontic pain.
方法:
歯内療法の痛みに関するよくある質問62件を、病因、症状、管理、発生率に分類した。ChatGPT 3.5とGeminiの回答は、Global Quality Score(GQS)、Completeness(完全性)、Lack of false information(誤った情報の欠如)、Evidence supported(支持される証拠)、Appropriateness and Relevance(適切性と妥当性)信頼性ツール、および読みやすさの指標(Flesch-KincaidとSimple Measure of Gobbledygook)を含む標準化ツールを用いて評価した。
METHODS: A total of 62 frequently asked questions on endodontic pain were categorized into etiology, symptoms, management, and incidence. Responses from ChatGPT 3.5 and Gemini were assessed using standardized tools, including the Global Quality Score (GQS), Completeness, Lack of false information, Evidence supported, Appropriateness and Relevance reliability tool, and readability indices (Flesch-Kincaid and Simple Measure of Gobbledygook).
結果:
ジェミニと比較し、ChatGPT 3.5の回答は、総合的な質(GQS:4.67-4.9 vs 2.5-4、P < 0.001)および信頼性(完全性、虚偽情報の欠如、エビデンスの裏付け、適切性と妥当性:23.5-23.6 vs 19.35-22.7、P < 0.05)の点で有意に高いスコアを獲得した。しかし、双子座(8.7-11.3, P < 0.001)と比較して、より高い読解レベル(ゴブリグックの簡易測定:14-17.6)を必要とした。双子座の回答はより読みやすかったが(小学6~7年生レベル)、深みと完全性に欠けていた。
RESULTS: Compared to Gemini, ChatGPT 3.5 responses scored significantly higher in terms of overall quality (GQS: 4.67-4.9 vs 2.5-4, P < .001) and reliability (Completeness, Lack of false information, Evidence supported, Appropriateness and Relevance: 23.5-23.6 vs 19.35-22.7, P < .05). However, it required a higher reading level (Simple Measure of Gobbledygook: 14-17.6) compared to Gemini (8.7-11.3, P < .001). Gemini's responses were more readable (6th-7th grade level) but lacked depth and completeness.
結論:
ChatGPT 3.5は、品質と信頼性においてジェミニを上回ったものの、その複雑な言語はアクセシビリティを低下させた。対照的に、Geminiはよりシンプルな言語で読みやすさを向上させたが、包括性を犠牲にした。これらの知見は、正確で、利用しやすく、共感できる患者教育を保証するために、人工知能主導のツールを医療コミュニケーションに統合する際の専門家の監視の必要性を強調している。
CONCLUSION: While ChatGPT 3.5 outperformed Gemini in quality and reliability, its complex language reduced accessibility. In contrast, Gemini's simpler language enhanced readability but sacrificed comprehensiveness. These findings highlight the need for professional oversight in integrating artificial intelligence-driven tools into healthcare communication to ensure accurate, accessible, and empathetic patient education.