百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

ChatGPT击败50名人类医生!疾病诊断准确率达90%,OpenAI总裁:人机合作还得加强

liebian365 2025-03-18 23:46 2 浏览 0 评论

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

用ChatGPT诊断疾病,准确率已经超过了人类医生?!

斯坦福大学等机构进行了一轮随机临床试验,结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下,这一数字提升到了76%。

有意思的是,如果完全让ChatGPT“自由发挥”,准确率直接飙到了90%

据纽约时报说,面对这一结果,参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价,在这样的案例中,人类的干预,反而是给大模型的表现“拖了后腿”。

OpenAI总裁Brockman也转发了这则消息,表示看来AI还有巨大的潜力,但在和人类合作这件事上,还需要再加强

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生,其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分,这50名医生包括26名主治医生和24名住院医生,工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组,区别是在诊断中是否允许使用ChatGPT。

另外,研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT,6人只用过一次,15人使用频率少于每月一次,13人每月多于一次但少于每周一次,8人每周至少使用一次。

病例方面,研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均来源于真实病人,包含病史、体检和实验室检查结果等初步诊断评估信息,但最终诊断结果从未公开

这意味着,人类医生无法预先知晓答案,ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例,确定至少10个满足纳入标准的候选病例,需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致,确定6个最终入选病例,预计受试者完成时间为1个小时。

入选的病例还要经过编辑,改写成现代化实验室数据报告的格式,并用将专业术语替换为通俗描述(如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”)

在评估方法上,研究团队设计了一个基于“结构化反思”的评估工具。

具体来说,参与者需要填写一个结构化的表格,其中包含以下关键要素:

  • 最可能的三个鉴别诊断(3分):参与者需要根据病例信息,列出他们认为最有可能的三个诊断,每个正确的诊断可以获得1分,最多3分;

  • 支持和反对每个诊断的因素(12分):对于每个鉴别诊断,参与者需要列出病例中支持和反对该诊断的具体证据。每个因素的评分采用0-2分的等级,0分表示错误或缺失,1分表示部分正确,2分表示完全正确;

  • 最终诊断(2分):在综合考虑各鉴别诊断的支持和反对证据后,参与者需要给出最终诊断。最佳诊断得2分,次佳但合理的诊断得1分,错误诊断不得分;

  • 后续步骤(2分):参与者需要列出最多三个他们认为必要的后续诊断措施,以进一步确认或排除某些诊断。每个步骤的评分也采用0-2分的等级,0分表示错误,1分表示部分正确,2分表示完全正确。

在正式实验之前,研究团队招募了13名医生,收集了共65个试点病例的结构化反思表格,并邀请3名临床评估专家进行盲评,从而对评分量表进行了优化。

最终,50名参与者需要在1个小时时间内,完成6个病例的结构化反思表格

每个病例会被2名评分员独立盲评,如果两名评审员评分相差不超过10%,则直接取平均值;

如果差异超过10%,则认为两名评审员存在分歧,需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容,研究人员公布了六个病例中的一个,以及对应得分高和得分低的医生的答案。

一名76岁的男性患者,走路时腰部、臀部和小腿剧烈疼痛。在他接受球囊血管成形术以扩大冠状动脉后几天,疼痛开始出现。手术后,他接受了48小时的血液稀释剂肝素治疗。

该男子称他感到发烧和疲倦。他的心脏病医生所做的实验室研究表明,他的贫血症再次发作,并且氮和其他肾脏废物在血液中积聚。该男子十年前曾因心脏病接受搭桥手术。

案例中还包括该男子体检的详细信息以及他的实验室测试结果,正确的诊断是“胆固醇栓塞”,两名医生以及GPT-4给出的回答如下(中间理由和后续操作略)

最终,实验组(使用ChatGPT)的诊断得分中位数为76%,对照组为74%。

由于每个参与者完成了多个病例,因此病例之间可能存在相关性,所以为了妥善处理这种嵌套结构,作者使用了混合效应模型

这类模型不仅考虑了干预的固定效应(即是否使用大模型的影响),还考虑了参与者和病例的随机效应。

根据混合效应模型估计,两组的差异为2个百分点,95%置信区间为-4到8个百分点,p值为0.60。

这意味着,尽管实验组的得分略高于对照组,但这种差异可能仅仅是由于随机误差所致,不具有统计学意义

如果单纯看最终诊断结果,以及完成测试所花费的时间,两组之间同样没有体现出明显的差别。

除此之外,作者还补充了单独使用ChatGPT进行诊断的实验。

研究团队使用近期提出的提示工程框架,迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素,且每个病例使用相同的提示。

一名研究者会将优化后的提示,连同病例内容输入ChatGPT,每个病例独立运行三次。

研究者会不对ChatGPT的输出做任何人工修改,直接交给评分者一同盲评,而且评分员也不知道哪些结果由ChatGPT生成。

结果,单独使用ChatGPT得到的诊断得分,中位数高达92%,明显高于对照组,且p值为0.03,具有统计学意义

需要注意的是,这些病例是经过人类临床医生精心筛选和总结的,人类已经对其中的关键信息进行过提取。

实际临床工作中,从病人那里获取信息、收集数据的过程更加复杂,因此实验结果并不代表大模型能在临床场景中取代人类

但同时,“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异,也说明了人类的使用方式,还远远不能发挥出大模型的最大效能

所以,就像开头Brockman说的一样,这个实验预示着,人类和AI之间,还需要进一步加强合作

论文地址:
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
参考链接:
[1]
https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了!

首批嘉宾阵容在此观众报名通道已开启欢迎来到MEET智能未来大会,期待与您一起预见智能科技新未来!


科技前沿进展日日相见 ~

相关推荐

几句代码实现搜索内存、解密数据库

本文只分享编程技术,不涉及具体软件。涉及具体软件的文章或工具出现很多年了,到处都是。头条上也有很多,这里我们不讨论。有用户问我:登录后才能解密,输入密码后才能备份出数据库,这些本来就是我自己可以查看的...

JDK 11 新特性总结(jdk最新特性)

一、语言特性增强局部变量类型推断升级支持在Lambda表达式参数中使用var关键字,编译器自动推断类型,简化代码编写并保持类型安全。...

和爷爷一起学Arduino:四位七段数码显示(学习面向对象编程)

2018年,我们买了个七段四位数码显示LED组件,如下图。经试验,它是与TM1637兼容的。右侧的引脚从上到下依次是,G(GND)、D(Data,数据)、C(Clock,时钟)、V(Vcc)。有两种,...

Linux 技巧:重定向 stderr 和 stdout 输出到 gdb 窗口

简介本文介绍了一个实用gdb调试技巧。它结合实际例子,一步一步示意如何重定向stderr和stdout到gdb窗口,使得查看应用程序的输出信息更为方便,从而提高调试者的工作效率。问题为...

CLion 1.0发布,C/C++跨平台集成开发环境

日前,知名开发者工具厂商JetBrains(捷克的一家软件开发公司)正式发布了一款跨平台的C/C++集成开发环境CLion1.0。这款强大的IDE旨在让你基于Linux、OSX、Windows系...

「运维经」第25章——gdb最实用的那几条命令

实用调试操作1setscheduler-lockingoff|on...

XV6操作系统入门系列-02-详解启动过程

第零步-心理上的准备工作任何事物都有其关键的窍门,当我们抓住了关键,事情会变得简单起来;当我们没有抓住要领,事情就会变得异常困难。...

GDB德国格德宝|OEM|奔驰车厂认证(德宝格机械)

MBMercedes油规格MB规范的名称源自奔驰蓝皮书计划,除以编号的段落和页面。经销商使用它来识别制造商认证的产品及其在发动机上的正确应用。...

o1已不是聊天模型了!SpaceX前工程师公开全新使用秘籍

梦晨发自凹非寺量子位|公众号QbitAI苹果&SpaceX前工程师分享o1使用心得,奥特曼、Brockman都转发了。...

ARM平台如何玩转GDB远程调试?(arm gdbserver)

前言关于GDB工具GDB工具是GNU项目调试器,基于命令行使用。和其他的调试器一样,可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等,它是UNIX/LINUX操作系统下...

ChatGPT击败50名人类医生!疾病诊断准确率达90%,OpenAI总裁:人机合作还得加强

...

GDB高级技巧:边Debug边修复BUG,无需修改代码,无需重新编译

友情提醒:本文介绍的调试技巧非常实用,但为了讲解清楚,篇幅较长,请耐心看完,我保证你定会有收获!引言程序调试时,你是否遇到过下面几种情况:1、经过定位,终于找到了程序中的一个BUG,满心欢喜地以为找到...

实现多态必须满足什么条件(实现多态的两种方式)

虚函数机制virtualmechanism先看代码:classA{public:virtualvoidprint(){cout<<"A.."<<endl;}...

gdb查看寄存器及内存数据与函数调用栈分析

在分析kdump生成的vmcore文件时,有时会需要分析函数调用栈及函数参数与局部变量的情况,这里以使用gdb为例调试分析一下函数调用的栈帧创建与销毁。操作系统:centos73.10.0-862...

C++语言求数组元素最大值及其下标例程(指针学习与运用)

C++语言编写求数组元素最大值及其下标例程(指针学习与运用)文章logo#include"stdafx.h"...

取消回复欢迎 发表评论: