目前大多數(shù)診斷疾病的AI模型都是在人類標注好的圖像基礎上進行機器學習訓練的,為了使模型以合理的性能預測某種病理,必須在訓練期間為該病理提供大量專家標記的訓練示例。這種獲得某些病理的高質量注釋的過程既昂貴又耗時,通常會導致臨床工作流程的出現(xiàn)大規(guī)模低效的問題。
一個名叫CheXzero的新算法模型誕生了!它可以在現(xiàn)有的醫(yī)學檢查報告中自主“學習”,這些報告是研究人員用自然語言(Natural Language Processing,NLP)撰寫的。相關研究成果以題為“Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning”發(fā)表在Nature Biomedical Engineering(圖1)。
圖1 研究成果(圖源:[1])
研究表明,在涉及醫(yī)學圖像解釋的任務中,經過適當訓練的機器學習模型通常會超過醫(yī)學專家的表現(xiàn)。然而,如此高水平的性能通常需要使用專家精心注釋的相關數(shù)據(jù)集來訓練模型。研究中展示出模型在無明確注釋的胸部X射線圖像上自我監(jiān)督模型執(zhí)行病理學分類任務,其準確性可與放射科醫(yī)生相媲美。在胸部X光片的外部驗證數(shù)據(jù)集上,自我監(jiān)督模型在檢測三種病理(共八種)方面優(yōu)于完全監(jiān)督模型,并且性能推廣到未明確注釋模型訓練的病理,到多種圖像解釋任務和來自多個機構的數(shù)據(jù)集。通過AI模型來理解醫(yī)學圖像這一目的,可以大幅度節(jié)省時間和資金成本。
來自哈佛醫(yī)學院的一組研究人員,利用一份公開可用的數(shù)據(jù)集,對CheXzero模型進行了訓練,該數(shù)據(jù)集包含超過377000張的胸部X光片和超過 227000份相應的臨床報告。研究人員利用分別來自于兩個不同機構,以及另一個國家的不相關數(shù)據(jù)集,對CheXzero的性能表現(xiàn)進行了測試,以檢驗即使是在報告中包含不同術語的情況下,模型也能夠將圖像與相應的報告進行匹配。
研究發(fā)現(xiàn):
01
CheXzero無需對任何標記樣本進行訓練即可對病理進行分類
在沒有明確標簽的情況下,零樣本方法與放射科專家和完全監(jiān)督方法在訓練期間未明確標記的病理學的表現(xiàn)相當(圖2)。具體來說,自監(jiān)督方法比 CheXpert競賽中表現(xiàn)最好的全監(jiān)督模型低-0.042點。該模型從原始放射學報告中學習特征,作為監(jiān)督的自然來源。對于每種病理,生成了一個積極和消極的提示(例如“合并”與“不合并”)。通過比較正面和負面提示的模型輸出,自我監(jiān)督方法計算病理的概率分數(shù),這可用于對其在胸部X射線圖像中的存在進行分類。
圖2 試驗過程(圖源:[1])
在訓練期間不使用顯式標簽的情況下,自監(jiān)督模型在CheXpert數(shù)據(jù)集上優(yōu)于之前的三種標簽高效方法(MoCo-CXR、MedAug和ConVIRT)。MoCo-CXR和MedAug僅使用胸部X射線圖像進行自我監(jiān)督。自監(jiān)督模型在不使用任何標簽或微調的情況下實現(xiàn)了這些結果,從而顯示了模型在零樣本任務上的能力。
02
CheXzero識別胸腔積液方面水平顯著高于放射科醫(yī)師
該模型的F1評分在胸腔積液方面顯著高于放射科醫(yī)師,在心臟腫大、實變和水腫方面無統(tǒng)計學差異。自我監(jiān)督模型的 ROC 曲線與放射科醫(yī)生與測試集基本事實的比較。當ROC曲線高于放射科醫(yī)師的操作點時,該模型優(yōu)于放射科醫(yī)師。
圖3 試驗過程(圖源:[1])
這表明自我監(jiān)督模型的性能與放射科醫(yī)生的性能相當,因為在五種CheXpert競爭病理學中,模型的性能與放射科醫(yī)生在平均MCC(Matthews correlation coefficient)和F1上的性能之間沒有統(tǒng)計學上的顯著差異。
03
CheXzero擁有在海量數(shù)據(jù)中泛化到數(shù)據(jù)集的能力
自我監(jiān)督方法能夠在與訓練數(shù)據(jù)集不同的國家/地區(qū)收集的數(shù)據(jù)集上以高精度預測鑒別診斷和射線照相結果。這種從截然不同的分布中泛化到數(shù)據(jù)集的能力一直是醫(yī)療人工智能部署的主要挑戰(zhàn)之一。自監(jiān)督模型可以更好地泛化,因為它能夠利用非結構化文本數(shù)據(jù),其中包含可適用于其他數(shù)據(jù)集的更多樣化的射線照相信息。此外,該研究中值得關注的是如果我們使用替代標簽而不是PadChest中的原始臨床發(fā)現(xiàn)。結果表明,自我監(jiān)督方法可以很好地概括不同的數(shù)據(jù)分布,而無需在訓練期間從PadChest中看到任何明確標記的病狀。
綜上,新的AI算法模型CheXzero自我監(jiān)督的方法在胸部X射線分類任務中匹配放射科醫(yī)生級別的性能,用于模型未明確訓練分類的多種病理。研究結果突出了深度學習模型利用大量未標記數(shù)據(jù)進行廣泛的醫(yī)學圖像解釋任務的潛力,從而可以減少醫(yī)療人員對標記數(shù)據(jù)集的依賴并減少大規(guī)模標記導致的臨床工作流程效率低下。
普拉納夫·拉杰普卡爾(Pranav Rajpurkar)是哈佛醫(yī)學院布拉瓦特尼克研究所生物醫(yī)學信息學的助理教授,主導了本研究項目。他說:“我們希望人們能夠以‘開箱即用’的方式,將模型應用于他們所關心的其他胸部X光圖像數(shù)據(jù)集和疾病類型。我們是第一個這樣做并在該領域有效地證明這一點的人。該模型的代碼已向其他研究人員公開,希望它可以應用于CT掃描、MRI 和超聲心動圖,以幫助檢測身體其他部位的更廣泛的疾病。需要監(jiān)督診斷的AI模型可以幫助在專家稀缺的國家和社區(qū)增加獲得醫(yī)療保健的機會。”
德國初創(chuàng)公司Vara的機器學習主管Christian Leibig 表示:“使用報告中更豐富的訓練信號非常有意義,Vara正在使用人工智能檢測乳腺癌。其能達到AI檢測疾病這樣的性能水平是一項非常大的成就。”
撰文|喬維鈞
排版|文競擇
參考資料:
[1]Tiu E, Talius E, Patel P, et al. Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning. Nat Biomed Eng. 2022 Sep 15. doi: 10.1038/s41551-022-00936-9. Epub ahead of print. PMID: 36109605.
[2]https://www.technologyreview.com/2022/09/15/1059541/ai-medical-notes-teach-itself-spot-disease-chest-x-rays/
[3]https://veille-cyber.com/an-ai-used-medical-notes-to-teach-itself/
本文系生物探索原創(chuàng),歡迎個人轉發(fā)分享。其他任何媒體、網站如需轉載,須在正文前注明來源生物探索。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內的諸多行業(yè)領域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產品創(chuàng)新及客戶服務之舟,在市場變革中逆風飛揚
11月24日,由慧聰物聯(lián)網、慧聰安防網、慧聰電子網主辦的2022(第十九屆)中國物聯(lián)網產業(yè)大會暨品牌盛會,在深…