目前大多數(shù)診斷疾病的AI模型都是在人類標(biāo)注好的圖像基礎(chǔ)上進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練的,為了使模型以合理的性能預(yù)測某種病理,必須在訓(xùn)練期間為該病理提供大量專家標(biāo)記的訓(xùn)練示例。這種獲得某些病理的高質(zhì)量注釋的過程既昂貴又耗時(shí),通常會(huì)導(dǎo)致臨床工作流程的出現(xiàn)大規(guī)模低效的問題。
一個(gè)名叫CheXzero的新算法模型誕生了!它可以在現(xiàn)有的醫(yī)學(xué)檢查報(bào)告中自主“學(xué)習(xí)”,這些報(bào)告是研究人員用自然語言(Natural Language Processing,NLP)撰寫的。相關(guān)研究成果以題為“Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning”發(fā)表在Nature Biomedical Engineering(圖1)。
圖1 研究成果(圖源:[1])
研究表明,在涉及醫(yī)學(xué)圖像解釋的任務(wù)中,經(jīng)過適當(dāng)訓(xùn)練的機(jī)器學(xué)習(xí)模型通常會(huì)超過醫(yī)學(xué)專家的表現(xiàn)。然而,如此高水平的性能通常需要使用專家精心注釋的相關(guān)數(shù)據(jù)集來訓(xùn)練模型。研究中展示出模型在無明確注釋的胸部X射線圖像上自我監(jiān)督模型執(zhí)行病理學(xué)分類任務(wù),其準(zhǔn)確性可與放射科醫(yī)生相媲美。在胸部X光片的外部驗(yàn)證數(shù)據(jù)集上,自我監(jiān)督模型在檢測三種病理(共八種)方面優(yōu)于完全監(jiān)督模型,并且性能推廣到未明確注釋模型訓(xùn)練的病理,到多種圖像解釋任務(wù)和來自多個(gè)機(jī)構(gòu)的數(shù)據(jù)集。通過AI模型來理解醫(yī)學(xué)圖像這一目的,可以大幅度節(jié)省時(shí)間和資金成本。
來自哈佛醫(yī)學(xué)院的一組研究人員,利用一份公開可用的數(shù)據(jù)集,對(duì)CheXzero模型進(jìn)行了訓(xùn)練,該數(shù)據(jù)集包含超過377000張的胸部X光片和超過 227000份相應(yīng)的臨床報(bào)告。研究人員利用分別來自于兩個(gè)不同機(jī)構(gòu),以及另一個(gè)國家的不相關(guān)數(shù)據(jù)集,對(duì)CheXzero的性能表現(xiàn)進(jìn)行了測試,以檢驗(yàn)即使是在報(bào)告中包含不同術(shù)語的情況下,模型也能夠?qū)D像與相應(yīng)的報(bào)告進(jìn)行匹配。
研究發(fā)現(xiàn):
01
CheXzero無需對(duì)任何標(biāo)記樣本進(jìn)行訓(xùn)練即可對(duì)病理進(jìn)行分類
在沒有明確標(biāo)簽的情況下,零樣本方法與放射科專家和完全監(jiān)督方法在訓(xùn)練期間未明確標(biāo)記的病理學(xué)的表現(xiàn)相當(dāng)(圖2)。具體來說,自監(jiān)督方法比 CheXpert競賽中表現(xiàn)最好的全監(jiān)督模型低-0.042點(diǎn)。該模型從原始放射學(xué)報(bào)告中學(xué)習(xí)特征,作為監(jiān)督的自然來源。對(duì)于每種病理,生成了一個(gè)積極和消極的提示(例如“合并”與“不合并”)。通過比較正面和負(fù)面提示的模型輸出,自我監(jiān)督方法計(jì)算病理的概率分?jǐn)?shù),這可用于對(duì)其在胸部X射線圖像中的存在進(jìn)行分類。
圖2 試驗(yàn)過程(圖源:[1])
在訓(xùn)練期間不使用顯式標(biāo)簽的情況下,自監(jiān)督模型在CheXpert數(shù)據(jù)集上優(yōu)于之前的三種標(biāo)簽高效方法(MoCo-CXR、MedAug和ConVIRT)。MoCo-CXR和MedAug僅使用胸部X射線圖像進(jìn)行自我監(jiān)督。自監(jiān)督模型在不使用任何標(biāo)簽或微調(diào)的情況下實(shí)現(xiàn)了這些結(jié)果,從而顯示了模型在零樣本任務(wù)上的能力。
02
CheXzero識(shí)別胸腔積液方面水平顯著高于放射科醫(yī)師
該模型的F1評(píng)分在胸腔積液方面顯著高于放射科醫(yī)師,在心臟腫大、實(shí)變和水腫方面無統(tǒng)計(jì)學(xué)差異。自我監(jiān)督模型的 ROC 曲線與放射科醫(yī)生與測試集基本事實(shí)的比較。當(dāng)ROC曲線高于放射科醫(yī)師的操作點(diǎn)時(shí),該模型優(yōu)于放射科醫(yī)師。
圖3 試驗(yàn)過程(圖源:[1])
這表明自我監(jiān)督模型的性能與放射科醫(yī)生的性能相當(dāng),因?yàn)樵谖宸NCheXpert競爭病理學(xué)中,模型的性能與放射科醫(yī)生在平均MCC(Matthews correlation coefficient)和F1上的性能之間沒有統(tǒng)計(jì)學(xué)上的顯著差異。
03
CheXzero擁有在海量數(shù)據(jù)中泛化到數(shù)據(jù)集的能力
自我監(jiān)督方法能夠在與訓(xùn)練數(shù)據(jù)集不同的國家/地區(qū)收集的數(shù)據(jù)集上以高精度預(yù)測鑒別診斷和射線照相結(jié)果。這種從截然不同的分布中泛化到數(shù)據(jù)集的能力一直是醫(yī)療人工智能部署的主要挑戰(zhàn)之一。自監(jiān)督模型可以更好地泛化,因?yàn)樗軌蚶梅墙Y(jié)構(gòu)化文本數(shù)據(jù),其中包含可適用于其他數(shù)據(jù)集的更多樣化的射線照相信息。此外,該研究中值得關(guān)注的是如果我們使用替代標(biāo)簽而不是PadChest中的原始臨床發(fā)現(xiàn)。結(jié)果表明,自我監(jiān)督方法可以很好地概括不同的數(shù)據(jù)分布,而無需在訓(xùn)練期間從PadChest中看到任何明確標(biāo)記的病狀。
綜上,新的AI算法模型CheXzero自我監(jiān)督的方法在胸部X射線分類任務(wù)中匹配放射科醫(yī)生級(jí)別的性能,用于模型未明確訓(xùn)練分類的多種病理。研究結(jié)果突出了深度學(xué)習(xí)模型利用大量未標(biāo)記數(shù)據(jù)進(jìn)行廣泛的醫(yī)學(xué)圖像解釋任務(wù)的潛力,從而可以減少醫(yī)療人員對(duì)標(biāo)記數(shù)據(jù)集的依賴并減少大規(guī)模標(biāo)記導(dǎo)致的臨床工作流程效率低下。
普拉納夫·拉杰普卡爾(Pranav Rajpurkar)是哈佛醫(yī)學(xué)院布拉瓦特尼克研究所生物醫(yī)學(xué)信息學(xué)的助理教授,主導(dǎo)了本研究項(xiàng)目。他說:“我們希望人們能夠以‘開箱即用’的方式,將模型應(yīng)用于他們所關(guān)心的其他胸部X光圖像數(shù)據(jù)集和疾病類型。我們是第一個(gè)這樣做并在該領(lǐng)域有效地證明這一點(diǎn)的人。該模型的代碼已向其他研究人員公開,希望它可以應(yīng)用于CT掃描、MRI 和超聲心動(dòng)圖,以幫助檢測身體其他部位的更廣泛的疾病。需要監(jiān)督診斷的AI模型可以幫助在專家稀缺的國家和社區(qū)增加獲得醫(yī)療保健的機(jī)會(huì)。”
德國初創(chuàng)公司Vara的機(jī)器學(xué)習(xí)主管Christian Leibig 表示:“使用報(bào)告中更豐富的訓(xùn)練信號(hào)非常有意義,Vara正在使用人工智能檢測乳腺癌。其能達(dá)到AI檢測疾病這樣的性能水平是一項(xiàng)非常大的成就。”
撰文|喬維鈞
排版|文競擇
參考資料:
[1]Tiu E, Talius E, Patel P, et al. Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning. Nat Biomed Eng. 2022 Sep 15. doi: 10.1038/s41551-022-00936-9. Epub ahead of print. PMID: 36109605.
[2]https://www.technologyreview.com/2022/09/15/1059541/ai-medical-notes-teach-itself-spot-disease-chest-x-rays/
[3]https://veille-cyber.com/an-ai-used-medical-notes-to-teach-itself/
本文系生物探索原創(chuàng),歡迎個(gè)人轉(zhuǎn)發(fā)分享。其他任何媒體、網(wǎng)站如需轉(zhuǎn)載,須在正文前注明來源生物探索。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…