DeepSeek AI 指向机制：Token 减少 90%，推理更透明

DeepSeek AI 近日展示了一种视觉推理的新思路。与当前主流模型依赖大段文本描述来解析图像不同，DeepSeek AI 采用“指向机制”（pointing mechanism），让系统直接对图像中的目标物体进行标注和追踪，从而呈现推理步骤。据媒体分析，该方法仅需传统模型约 10% 的视觉标记（visual tokens）即可完成同等任务，大幅压缩了计算需求，同时保持高精度。

指向机制的核心在于将 AI 的思考过程可视化：模型不再对每个识别结果用文字解释，而是直接在图像上“画出”推理路径。例如，在迷宫导航任务中，系统可以通过连续指向路线中的关键转角，直观展示决策依据；在空间布局分析中，物体间的连接关系同样以视觉痕迹呈现。这种透明度不仅有助于调试和验证，也使得模型的输出更容易被人类理解。

统一的训练框架是 DeepSeek AI 的另一特点。它把物体识别、空间关系推理等不同任务整合进单一模型，无需为每个任务单独设计专用系统。因此，无论是识别特定对象，还是分析复杂场景中的相互连接，都能在同一架构下完成。但报道也指出，该技术在高分辨率图像处理、以及面对与训练分布差异较大的场景时，表现仍有不足，泛化能力尚需提升。

DeepSeek AI 指向机制示意图 — DeepSeek AI 以指向方式直接标注物体，省去大量文本描述

兼顾效率与可解释性的视觉推理路径

从技术方向看，DeepSeek AI 在降低计算开销和保持可解释性之间找到了平衡。传统视觉模型要么依赖大语言模型逐字描述推理过程，导致 Token 消耗极高；要么直接输出结果却无法追溯判据。指向机制以视觉痕迹替代文字推理，既减少了冗余信息，又保留了清晰的决策轨迹，特别适合需要可追溯性的应用场景。

尽管距离完美仍有差距，但该方法已展示出区别于“大模型+详细文本”路线的实用价值。如果后续能够解决高分辨率下的精度问题并增强泛化能力，指向式的视觉推理有望在工业检测、自动驾驶仿真、科学图像分析等领域找到落地点。

本文参考来源：Geeky Gadgets

DeepSeek AI 用指向机制取代文本描述，视觉 Token 消耗减少 90%

兼顾效率与可解释性的视觉推理路径

阿逸

发表回复取消回复

兼顾效率与可解释性的视觉推理路径

阿逸

相关文章

小米大模型负责人谈Claude封杀第三方工具：不能只算token账，工程纪律更重要

小米发布 Xiaomi OneVL 自动驾驶模型：潜空间推理统一 VLA 与世界模型框架

拿了上百亿美元投资也要站着 梁文锋强硬表态：DeepSeek坚持AGI与开源

发表回复取消回复

拿了上百亿美元投资也要站着梁文锋强硬表态：DeepSeek坚持AGI与开源