Internet

生成式人工智能正涉足医疗行业，不是每个人都感到兴奋

玛诗北欧 Monday, June 24 2024

生成式人工智能能够创造和分析图像、文本、音频、视频等内容，越来越多地进入医疗行业，得到大科技公司和初创公司的推动。

Google Cloud，谷歌的云服务和产品部门，正在与匹兹堡非营利医疗公司Highmark Health合作，开发旨在个性化患者接待体验的生成式人工智能工具。亚马逊的AWS部门表示正在与未透露的客户合作，以一种使用生成式人工智能分析医疗数据库的方式来研究“健康的社交决定因素”。微软Azure正在帮助建立一个生成式人工智能系统，用于Providence这家非营利医疗网络，以自动将来自患者的消息分类发送给医护人员。

在医疗领域知名的生成式人工智能初创公司包括Ambience Healthcare，该公司正在为临床人员开发一款生成式人工智能应用程序；Nabla，一款为从业者设计的环境智能助手；以及Abridge，为医学文档创建分析工具。

对于定位医疗行业的生成式人工智能的广泛热情反映在投资方面。迄今为止，医疗领域的生成式人工智能初创公司共筹集了数千万美元的风险投资，绝大多数医疗投资者表示，生成式人工智能明显影响了他们的投资策略。

但是，专业人士和患者对于医疗领域的生成式人工智能是否已经准备好投入使用，观点不一。

生成式人工智能可能不是人们想要的

根据德勤最近的一项调查，仅有约53%的美国消费者表示他们认为生成式人工智能可以改善医疗行业 — 例如，使其更易获得或缩短预约等待时间。不到一半的人表示他们期望生成式人工智能能够使医疗保健更加负担得起。

美国退伍军人事务部下属最大的医疗系统VA Sunshine Healthcare Network的首席人工智能官Andrew Borkowski认为这种怀疑并非没有道理。Borkowski警告称，由于生成式人工智能的“显著”限制以及其有效性方面的担忧，该技术的部署可能过早。

“生成式人工智能的一个关键问题是其无法处理复杂的医疗查询或紧急情况，”他告诉TechCrunch。“它的知识库是有限的 — 即缺乏最新的临床信息 — 缺乏人类专业知识使其无法提供全面的医疗建议或治疗建议。”

几项研究表明这些观点有一定的道理。

在《JAMA Pediatrics》杂志上的一篇论文中，OpenAI的ChatGPT生成式人工智能聊天机器人，在一些医疗机构中有限使用情况下，诊断儿科疾病错误率达83%。在波士顿贝斯以色列医学中心对OpenAI的GPT-4进行诊断助手测试中，医生们观察到该模型近三分之二的情况下，排名第一的诊断结果是错误的。

当前的生成式人工智能在医疗管理员任务方面也存在困难，这些任务是临床医生日常工作中的一部分。在MedAlign基准测试中评估生成式人工智能完成诸如总结患者健康记录和搜索笔记等任务时，GPT-4在35%的情况下失败。

OpenAI和许多其他生成式人工智能供应商警告说，不应依赖其模型来获取医疗建议。但是Borkowski和其他人表示他们还可以做更多。“仅仅依赖生成式人工智能进行医疗可能导致误诊、不当治疗甚至危及生命，”Borkowski表示。

Jan Egger是杜伊斯堡-艾森大学人工智能医学研究所的AI引导疗法负责人，他认为目前在医疗领域安全使用生成式人工智能的唯一方法就是在医生密切监督下进行。

“结果可能完全错误，而且越来越难以意识到这一点，”Egger说。“当然，生成式人工智能可以用于预先编写出院信。但医生有责任检查并作出最终决定。”

生成式人工智能可能强化刻板印象

医疗领域生成式人工智能可能恶化的一种有害方式是强化刻板印象。

在斯坦福医学院2023年的一项研究中，一组研究人员对ChatGPT和其他生成式人工智能驱动的聊天机器人进行了有关肾功能、肺活量和皮肤厚度的问题测试。研究发现，ChatGPT的答案经常是错误的，并且作者发现，其中的答案包括一些长期以来存在的不正确信念，即黑人和白人之间存在生物学上的差异 — 这些不真实的观点已导致医务人员误诊健康问题。

具有讽刺意味的是，最有可能受到医疗领域生成式人工智能歧视的患者也最有可能使用它。

德勤调查显示，缺乏医疗保障的人群 — 主要是有色人种，根据KFF的一项研究 — 更愿意尝试生成式人工智能来寻找医生或心理健康支持。如果人工智能的推荐受到偏见的影响，可能会加剧治疗中的不平等。

然而，一些专家认为在这方面生成式人工智能在改善。

在2023年末发表的微软研究中，研究人员表示他们利用GPT-4在四项挑战性医学基准上达到了90.2%的准确率。普通的GPT-4无法达到这一分数。但研究人员表示，通过提示工程 — 为GPT-4设计提示以产生特定输出 — 可以将该模型的分数提高多达16.2个百分点。（值得注意的是，微软是OpenAI的主要投资者。）