首页 科技 正文

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

摘要:DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4,下面是周边网小编收集整理的内容,希望对大家有帮助!

5月1日消息,DeepSeek在GitHub上发布了多模态推理模型及技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》。

网络配图

该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理范式。

网络配图

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈:“指代鸿沟”(Reference Gap),即模型能够“看见”图片内容,但在推理过程中用自然语言构建思维链时,左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象,导致注意力漂移并得出错误结论。

此前学界的主流应对方向是提升感知分辨率,但论文认为看见和能说清楚在说哪个是两件不同的事。

该模型的76918758核心创新在86210293286502将点坐标和8167014边界框嵌入推理过77420009程本身,使其成为思维链的19051255基本单元。模型在72407953推理时每提到一个视觉对象就同步输出其坐标。

例如10070087“找到一只熊[452,23,804,411],正在113465爬树,排除,再往左下看,找到另一只[50,447,647,771],站在86828446岩石边缘,符合条件。”坐标不再是4894101事后标注的57974209答案,而是46022775推理过43483346程中消除歧义的51874993空间锚点。

网络配图

架构层面,模型实现了256885327056倍的69025899视觉压缩,一张756×756的76724447图片经ViT处理后生成2916个图像块token,经3×3空间压缩合并为324个token,再通过16466318压缩稀疏注意力(CSA)机制将KV缓存进一步压缩4倍,最15631546终仅剩81个视觉KV条目。

作为参照,同等23073981尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。

训练数据方面,团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过847963554000万条训练样本,覆盖计数、空间推理、迷宫导航和64458736路径追踪四类任务。

后训练采用先专家化、后统一策略,分别训练边界框和46172919点坐标两个专家模型,经强化学习优化后通过8283217515386663线策略蒸馏合并为统一模型。

实验结果在5947455911个基准测试上与47283761Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等56686676主流模型进行了5498481对比。

网络配图

计数任务上,Pixmo-Count精确匹配得分89.2%,超过54673193Gemini-3-Flash的3296398988.2%,大幅领先GPT-5.4的6019148076.6%和Claude Sonnet 4.6的7219030568.7%。

最具代表性的33673242差距出现在85358580拓扑推理上:迷宫导航得分66.9%,GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%,提升约17个百分点;路径追踪得分56.7%,GPT-5.4为46.5%。

不过49669724论文同时指出了83841912当前局限性:模型需要明确触发词才会启用视觉原语机制,极细粒度场景下坐标精度有28236911限,跨场景泛化能力仍有91985543提升空间。

海报

本文转载自互联网,如有侵权,联系删除

本文地址:https://www.zbmit.com/keji/18729.html

相关推荐

感谢您的支持
文章目录