
谷歌Veo-3医学测试暴露AI“理解鸿沟”:影像逼真,逻辑失真
在人工智能视频生成技术快速演进的当下,谷歌最新模型Veo-3再度成为焦点。然而,一项针对其医学应用潜力的国际研究显示,尽管Veo-3能生成极具真实感的视觉画面,但在医学逻辑与操作理解上存在严重缺陷,这为AI在医疗培训领域的使用敲响了警钟。
手术场景测试揭示“表面智能”困境
研究团队以50段真实腹腔及脑部手术视频为样本,建立名为“SurgVeo”的评测基准体系。测试方式十分严苛——仅向Veo-3提供一张静态手术图像,要求其预测未来8秒的手术进展。
评估由四位资深外科医生独立进行,评分维度涵盖画面真实性、器械使用、组织反馈及手术逻辑四项,满分5分。
结果显示,Veo-3生成视频在视觉层面颇具欺骗性,清晰度高达3.72分,但当涉及医学准确性时却“原形毕露”:器械操作仅得1.78分,组织反应1.64分,手术逻辑性更低至1.61分。在脑部精细手术中,模型几乎无法维持正确操作路径,8秒后逻辑得分跌至1.13分。
超九成错误源自医学逻辑缺陷
研究人员将错误分型后发现,93%以上的错误并非视觉问题,而是出现在“医学推理”层面。模型会凭空生成不存在的器械、虚构违反生理规律的动作,甚至制造无意义操作场景。
研究团队尝试补充更多上下文信息,如手术类型与阶段,但模型表现并无显著提升。这表明Veo-3虽能捕捉“外观”,却无法真正理解手术的知识结构与因果逻辑。
AI医学幻觉的风险与边界
研究团队指出,AI生成影像的“真实性”并不等同于“可靠性”。当缺乏医学知识支撑时,AI可能产生极具迷惑性的“幻觉”。
若此类模型用于医学教学或机器人手术训练,可能让学习者误信错误动作、错误器械使用,甚至诱发安全风险。
因此,研究者强调,AI视频模型尚处在“模仿运动”的阶段,距离“理解世界”的目标仍有漫长距离。
开放数据,促进AI安全边界研究
团队计划将SurgVeo基准开源至GitHub,以推动学术界加强对AI医学理解的研究。研究结论提醒我们,人工智能并非万能“世界模型”,其现阶段能力仅能呈现视觉形态,却难以捕捉生命科学的复杂逻辑。
在医学这样的高风险领域,科技创新的每一步都必须建立在科学严谨与伦理审慎之上。
© 版权声明
本内容由 AI 生成,仅供参考,不构成新闻报道。








