本文聚焦于多模态生成式医学图像解释(GenMI)领域,介绍了哈佛医学院研究团队在权威期刊发表的关于开发从图像中生成医学报告的AI系统的进展与挑战,阐述了GenMI在临床中的优势及应用范例,同时指出了其面临的四大挑战,并强调了其在医疗领域的广阔前景。
在医学的研究与临床治疗进程中,精准解读医学图像并生成具有深刻洞察力的报告,对于病人的护理而言是不可或缺的重要环节。然而,这一任务却给人类临床专家带来了极为沉重的负担。想象一下,临床专家们每日需要面对大量的医学图像,耗费大量的时间和精力去分析、解读,这不仅影响了工作效率,也可能因疲劳而出现判断失误。
近年来,人工智能(AI)领域发展迅猛,尤其是多模态生成式医学图像解释(GenMI)领域的快速崛起,为自动化这一复杂过程的部分工作创造了新的机遇。尽管GenMI有着巨大的潜力,有望在生成跨学科报告方面达到人类专家的水平,但目前它在准确性、透明度等方面仍面临着诸多障碍。
清晰地认识并解决这些障碍,同时提出针对性的解决方案,对于临床医生来说至关重要。这不仅能够帮助他们提升护理质量,加强医学教育,还能有效减少工作量,扩大专业准入范围,并及时提供实时专业知识。
近日,来自哈佛医学院的研究团队在权威科学期刊Nature上发表了一篇文章,对开发从图像中生成医学报告的AI系统方面的进展和挑战进行了全面的综述。
论文链接:
https://www.nature.com/articles/s41586-024-07618-3
该研究团队除了深入分析医疗报告生成的新模型的优势和应用之外,还倡导一种全新的范式,旨在以一种能够充分授权临床医生及其患者的方式来部署GenMI。
在临床中发挥GenMI的优势
目前,现有的大多数AI解决方案主要侧重于自动完成医学影像中的单一任务,却忽略了放射学和临床成像中所涉及的更全面的综合分析。实际上,AI在医学成像和报告方面有着巨大的潜力,它可以实现更广泛的用途。例如,它能够快速撰写出涉及多科室的权威报告,同时摄取多种模式和临床数据,生成更加准确、流畅和可解释的报告。
图|自动生成医疗报告的应用
当前,医疗报告生成框架主要由视觉编码器和语言解码器组成。其中,编码器的作用是将图像中的视觉信息提取为向量表示,而解码器则接收这个向量并产生特定的输出。
近年来,科研人员在编码器 – 解码器方法的基础上不断进行创新,从而能够更好地编码图像数据、充分考虑外部知识、精准筛选异常等。包括大语言模型(LLM)在内的大型预训练通用AI系统,通过推动开发新的GenMI解决方案,彻底改变了医学图像解释的方式。
这些GenMI方法不仅可以产生更准确的医疗报告,还能够使用相同的基础模型执行其他几个下游任务,并处理多模态数据。而且,这些算法大多建立在视觉语言模型(VLM)的基础上,VLM将单个视觉和语言模型融合到一个统一的框架中,可以对图像和文本输入进行联合编码。
图|GenMI的能力
在临床环境中,利用GenMI协助临床医生和患者,充分发挥它们的优势,可以通过以下两个范例来理解。
第一个范例是部署AI住院实习医师。AI住院实习医师首先会专门起草临床上准确的报告,作为住院实习医师或医生撰写报告的起点。在开发过程中,可以在临床环境中对模型进行前瞻性测试。然后,AI住院实习医师可以在主治医师的监督下进行微调或校准,并从所需的修正和补充中学习。
图|部署AI住院实习医师
第二个范例是符合人类偏好。基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)是应用于此类任务的两种技术。对话式医疗报告生成模型,使临床医生可以根据需要提供反馈和后续问题,还可以与临床医生合作,通过生成式AI改变输入图像的属性,观察模型预测中的相关差异,并将这些差异与临床医生识别出的突出特征进行比较,从而对AI成像工具进行审核,还可以对为患者生成的报告进行调整,使其更直白,包含更少的医学术语,更多围绕患者病情。
总的来说,临床医生可以通过以下3种途径与AI系统协作:
一是利用AI模型的诊断能力,获得诊断错误的反馈。模型可以结合多模态输出,其中的解释加上在原始图像上的边界框,可以突出图像中以前可能被忽略的相关区域;
二是借助模型快速解析图像和报告的能力,有助于临床医生快速搜索类似病例和图像;
三是模型可以协助临床医生决策,其提出的探究性问题可以让临床医生深入了解与特定病症相关的诊断模式。
仍需克服4大挑战
然而,研究团队指出,要想充分发挥GenMI等AI系统的优势,还需要解决以下4大挑战。
首先,是基准和评估指标问题。在安全实施医学报告生成模型,AI住院实习医师将在住院治疗中发挥更重要的作用之前,必须开展评估下游临床效果的研究,明确衡量标准。流行的LLM的性能会随着时间的推移而发生显著变化,这种差异可能会造成严重后果。例如,疾病预测模型可能会被操纵以输出特定的诊断和结果测量,从而导致处方过量、保险欺诈和伪造临床试验。因此,在将LLM作为人工智能住院实习医师的一部分进行部署时,必须确保采取一致的安全措施和监管。
其次,是临床医生和患者的过度依赖问题。临床医生可能出于对错误问责的模糊性、确认偏差和自动化偏差,过于依赖机器自动化指导等各种原因,不愿意更改AI生成报告中的文字,忽略模型无法识别的罕见发现。虽然AI住院实习医师可以让患者直接与真正的临床专家进行交流,但这些交流应该在可控的情况下进行,这样患者就不会依赖AI住院实习医师来指导他们的医疗护理。同时,临床医生应向患者传授正确的查询方法,并让他们了解AI工具,以便自己进行探索。在部署AI住院实习医师的整个过程中,必须承认AI系统的局限性,尤其是在直接护理等只有人类才能处理和提供的更广泛的语境、同理心和认知的领域。
然后,是有偏差的数据集和模型问题。深度学习模型,尤其是LLM,很容易受到训练数据固有偏差的影响。在AI住院实习医师的范例中,这种缺陷尤其容易造成问题,因为模型不仅会在生成的报告中,还会在医学教育和临床医生理解等方面延续这种偏差。此外,人类的主观反馈是改进AI住院医师的关键因素,而这本身就可能造成有偏见的反馈循环。训练数据的质量、规模和平衡也是决定模型偏差的重要因素,因此亟需更广泛、更具代表性的数据集。目前,大多数进展都是由MIMIC – CXR等数据集推动的,这些数据集仅限于单模态胸部X光扫描,其他数据集也不平衡,除了配对图像和相关报告普遍不足外,与正常扫描相比,异常扫描要少得多,并且往往会捕捉到更常见的疾病,而罕见的疾病则很少出现。异常也通常只局限于图像的一小部分,因此模型很难对其进行筛选。
最后,是新的模式和新的科室问题。目前,将GenMI应用于三维成像(包括MRI和CT扫描)的工作十分有限。部分原因是这一领域缺乏大型标注数据集,只有少数未发布、稀少或难以获取的数据集。除了三维放射图像,GenMI还以有限的方式应用于其他科室。眼科和皮肤科的报告生成在一定程度上取得了成功,在其考虑中纳入了外部知识和疾病分类等标准技术。尽管纳入新科室和图像类型将扩展AI工具的能力,但获取大规模多模态数据集的成本非常高昂,只有资源充足的公司或有能力收集或授权使用这些专有数据集。
自动生成医疗报告在减轻临床负担、扩大专家级临床医疗服务覆盖面方面有着广阔的前景。GenMI可以生成更高质量的报告,通过提供交互式临床专业知识授权临床医生和患者,并通过扩展教育功能改善未来的临床护理。
研究团队强调,在不同模式和科室的临床环境中,制定衡量其效果的公开基准、进行持续的临床合作和谨慎的模型验证至关重要。这有助于学术界更透明地衡量报告生成的进展,并为临床监管机构未来的工作提供指导,使其安全有效。
本文详细介绍了多模态生成式医学图像解释(GenMI)在医疗报告生成方面的进展,阐述了其在临床中的优势及应用范例,同时指出了面临的基准、依赖、偏差、新领域应用等四大挑战。尽管存在挑战,但GenMI在减轻临床负担、提升护理质量等方面前景广阔,制定公开基准和进行模型验证是推动其安全有效应用的关键。
原创文章,作者:小耀,如若转载,请注明出处:https://www.xiaoyaoxin.com/archives/6416.html