计算机视觉顶会CVPR 2026于当地时间6月5日在美国丹佛揭晓全部奖项。最佳论文由谷歌DeepMind(Google DeepMind)联合伦敦大学学院(UCL)、牛津大学完成的D4RT获得;时间检验奖授予ResNet与YOLO;最佳学生论文花落清华大学与微软研究院合作的TRELLIS.2;最佳学生论文提名则由广东工业大学(Guangdong University of Technology)本科生团队以ChordEdit拿下,成为唯一非大厂、非顶尖名校的获奖队伍。
大奖格局:华人主导与广东突破
本届CVPR规模再创纪录,共收到16092篇投稿,录用4071篇,较去年增长23.71%。论文奖竞争激烈:74篇入围、15篇进入决赛圈,最终5篇获奖。获奖机构覆盖谷歌DeepMind(Google DeepMind)、Meta、英伟达(NVIDIA)、清华大学、微软研究院等,华人学者几乎覆盖每个奖项,在近十年已成常态。
然而今年最令外界意外的,是广东工业大学出现在大奖名单中。ChordEdit由广工大、惠州学院、深圳大学和北京大学合作完成,第一作者及多名作者为本科生,这在以往由大厂和名校垄断的奖项中极为罕见。同样与广东渊源深厚的何恺明(广东省高考状元、ResNet第一作者)也凭借时间检验奖再次登上领奖台,让广东元素成为本届CVPR最突出的风景线。

获奖技术详解
最佳论文D4RT:动态4D重建的前馈革新。D4RT(Efficiently Reconstructing Dynamic Scenes One D4RT at a Time)提出前馈式4D重建新范式。它通过单个编码器将输入视频压缩为全局场景表示,再以轻量解码器统一回答任意点任意时刻的三维位置,同时输出深度图、点云、轨迹和相机参数,无需多任务分支。在A100 GPU上,D4RT的位姿估计速度比MegaSaM快约100倍,精度反而更高,一举刷新多项动态4D重建基准。该工作延续去年最佳论文VGGT的几何重建路线,在速度与精度上实现了超越。
时间检验奖ResNet与YOLO:十年经典。ResNet(Deep Residual Learning for Image Recognition)由何恺明、张祥雨、任少卿、孙剑等完成,其提出的残差连接使深层网络可训练性得到根本解决,成为深度学习标准组件。YOLO(You Only Look Once: Unified, Real-Time Object Detection)将目标检测重构为端到端回归,单次前馈即可获得所有目标位置和类别,在Titan X上达到45 FPS,开启了实时检测时代。两篇论文至今影响深远。
最佳学生论文提名ChordEdit:广工大本科生的低能量编辑创新。ChordEdit(ChordEdit: One-Step Low-Energy Transport for Image Editing)专注于单步文生图模型的图像编辑难题。该类模型生成速度快,但直接用于编辑时常出现物体变形、细节失真。ChordEdit基于动态最优传输理论设计了低能量传输策略,在源文本与目标文本分布间实现平滑编辑场,一大步完成稳定编辑。该文入选Oral,团队来自广东工业大学、惠州学院、深圳大学、北京大学,第一作者为广工大本科生,展示了非巨头团队在前沿方法上的创新能力。
名词解释:
4D重建: 在3D空间(长宽高)基础上增加时间维度,构建随时间变化的动态场景几何与运动。D4RT实现了从普通视频到4D重建的端到端前馈处理。
残差连接(Residual Connection): 深度网络中的跳跃连接结构,允许梯度直接回传到浅层,有效解决了深层网络退化问题。ResNet首次大规模应用并成为标准组件。
YOLO(You Only Look Once): 一种实时目标检测算法,将检测统一为单次回归任务,在单张图上同时预测边界框和类别,实现极快速度。
本文参考来源:量子位
微信扫描下方的二维码阅读本文



