あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
J Med Internet Res.2023 Jun;25:e44356.

リアルタイムマイニングと人工知能ベースの分析を用いた健康のためのツイート:ツイッター上の誤報を検出・分析するためのビッグデータエコシステムの設計と開発

Tweeting for Health Using Real-time Mining and Artificial Intelligence-Based Analytics: Design and Development of a Big Data Ecosystem for Detecting and Analyzing Misinformation on Twitter.

PMID: 37294603

抄録

背景:

主にソーシャルメディア上のデジタル誤情報は、一般大衆に有害で費用のかかる信念を抱かせている。特に、こうした誤信は公衆衛生の危機を招き、世界各国の政府や国民に不利益を与えている。しかし、公衆衛生当局は、大量のソーシャルメディア・データをリアルタイムでマイニング・分析できる包括的なシステムへのアクセスを必要としている。

BACKGROUND: Digital misinformation, primarily on social media, has led to harmful and costly beliefs in the general population. Notably, these beliefs have resulted in public health crises to the detriment of governments worldwide and their citizens. However, public health officials need access to a comprehensive system capable of mining and analyzing large volumes of social media data in real time.

目的:

本研究の目的は、特定のトピックまたは関連するトピックの集合について、ソーシャルメディアを通じて流布された虚偽または誤解を招く情報を特定・分析するためのビッグデータパイプラインとエコシステム(ユビラボ誤情報分析システム[U-MAS])を設計・開発することである。

OBJECTIVE: This study aimed to design and develop a big data pipeline and ecosystem (UbiLab Misinformation Analysis System [U-MAS]) to identify and analyze false or misleading information disseminated via social media on a certain topic or set of related topics.

方法:

U-MASはPythonで開発されたプラットフォームに依存しないエコシステムであり、Twitter V2アプリケーション・プログラミング・インターフェースとElastic Stackを活用している。U-MASエキスパート・システムには、データ抽出フレームワーク、潜在ディリクレ配分(LDA)トピック・モデル、センチメント・アナライザー、誤情報分類モデル、Elastic Cloudデプロイメント(データのインデックス化とビジュアライゼーション)の5つの主要コンポーネントがあります。データ抽出フレームワークは、公衆衛生の専門家によって特定されたクエリを使用して、Twitter V2アプリケーション・プログラミング・インターフェースを介してデータをクエリします。LDA トピックモデル、センチメントアナライザ、および誤情報分類モデルは、抽出されたデータのうち専門家によって検証された小規模なサブセットを使用して個別にトレーニングされます。これらのモデルはU-MASに組み込まれ、残りのデータを分析・分類する。最後に、分析されたデータはElastic Cloudのインデックスにロードされ、情報疫学と情報監視分析に関連する高度な可視化と分析を備えたダッシュボードに表示することができます。

METHODS: U-MAS is a platform-independent ecosystem developed in Python that leverages the Twitter V2 application programming interface and the Elastic Stack. The U-MAS expert system has 5 major components: data extraction framework, latent Dirichlet allocation (LDA) topic model, sentiment analyzer, misinformation classification model, and Elastic Cloud deployment (indexing of data and visualizations). The data extraction framework queries the data through the Twitter V2 application programming interface, with queries identified by public health experts. The LDA topic model, sentiment analyzer, and misinformation classification model are independently trained using a small, expert-validated subset of the extracted data. These models are then incorporated into U-MAS to analyze and classify the remaining data. Finally, the analyzed data are loaded into an index in the Elastic Cloud deployment and can then be presented on dashboards with advanced visualizations and analytics pertinent to infodemiology and infoveillance analysis.

結果:

U-MASは効率的かつ正確に実行されました。独立調査員がこのシステムを使用して、フッ化物関連の健康誤情報のユースケース(2016年から2021年)について重要な洞察を抽出することに成功した。このシステムは現在、ワクチン接種のためらいに関するユースケース(2007年から2022年まで)と、熱波に関連する病気に関するユースケース(2011年から2022年まで)に使用されている。フッ化物誤情報のユースケースにおけるシステムの各コンポーネントは、期待通りに機能した。データ抽出フレームワークは、短時間で大量のデータを処理する。LDAトピックモデルは比較的高いコヒーレンス値(0.54)を達成し、予測されたトピックは正確でデータに適していた。感情分析器の相関係数は0.72であったが、さらなる反復により改善される可能性がある。誤情報分類器は、専門家が検証したデータに対して0.82という満足のいく相関係数を達成した。さらに、Elastic Cloud上でホストされる出力ダッシュボードと分析機能は、技術的なバックグラウンドを持たない研究者にとっても直感的であり、その可視化と分析機能は包括的である。実際、フッ素の誤情報のユースケースの研究者は、このシステムを利用して、公衆衛生に関する興味深く重要な洞察を抽出することに成功し、別途発表している。

RESULTS: U-MAS performed efficiently and accurately. Independent investigators have successfully used the system to extract significant insights into a fluoride-related health misinformation use case (2016 to 2021). The system is currently used for a vaccine hesitancy use case (2007 to 2022) and a heat wave-related illnesses use case (2011 to 2022). Each component in the system for the fluoride misinformation use case performed as expected. The data extraction framework handles large amounts of data within short periods. The LDA topic models achieved relatively high coherence values (0.54), and the predicted topics were accurate and befitting to the data. The sentiment analyzer performed at a correlation coefficient of 0.72 but could be improved in further iterations. The misinformation classifier attained a satisfactory correlation coefficient of 0.82 against expert-validated data. Moreover, the output dashboard and analytics hosted on the Elastic Cloud deployment are intuitive for researchers without a technical background and comprehensive in their visualization and analytics capabilities. In fact, the investigators of the fluoride misinformation use case have successfully used the system to extract interesting and important insights into public health, which have been published separately.

結論:

新しいU-MASパイプラインは、特定のトピックまたは関連するトピックの集合に関連する誤解を招く情報を検出し、分析する可能性を持っている。

CONCLUSIONS: The novel U-MAS pipeline has the potential to detect and analyze misleading information related to a particular topic or set of related topics.