CVPR 2026奖项揭晓：何恺明ResNet获时间检验奖，广工大本科生团队打破垄断

计算机视觉顶会CVPR 2026于当地时间6月5日在美国丹佛揭晓全部奖项。最佳论文由谷歌DeepMind（Google DeepMind）联合伦敦大学学院（UCL）、牛津大学完成的D4RT获得；时间检验奖授予ResNet与YOLO；最佳学生论文花落清华大学与微软研究院合作的TRELLIS.2；最佳学生论文提名则由广东工业大学（Guangdong University of Technology）本科生团队以ChordEdit拿下，成为唯一非大厂、非顶尖名校的获奖队伍。

大奖格局：华人主导与广东突破

本届CVPR规模再创纪录，共收到16092篇投稿，录用4071篇，较去年增长23.71%。论文奖竞争激烈：74篇入围、15篇进入决赛圈，最终5篇获奖。获奖机构覆盖谷歌DeepMind（Google DeepMind）、Meta、英伟达（NVIDIA）、清华大学、微软研究院等，华人学者几乎覆盖每个奖项，在近十年已成常态。

然而今年最令外界意外的，是广东工业大学出现在大奖名单中。ChordEdit由广工大、惠州学院、深圳大学和北京大学合作完成，第一作者及多名作者为本科生，这在以往由大厂和名校垄断的奖项中极为罕见。同样与广东渊源深厚的何恺明（广东省高考状元、ResNet第一作者）也凭借时间检验奖再次登上领奖台，让广东元素成为本届CVPR最突出的风景线。

获奖技术详解

最佳论文D4RT：动态4D重建的前馈革新。D4RT（Efficiently Reconstructing Dynamic Scenes One D4RT at a Time）提出前馈式4D重建新范式。它通过单个编码器将输入视频压缩为全局场景表示，再以轻量解码器统一回答任意点任意时刻的三维位置，同时输出深度图、点云、轨迹和相机参数，无需多任务分支。在A100 GPU上，D4RT的位姿估计速度比MegaSaM快约100倍，精度反而更高，一举刷新多项动态4D重建基准。该工作延续去年最佳论文VGGT的几何重建路线，在速度与精度上实现了超越。

时间检验奖ResNet与YOLO：十年经典。ResNet（Deep Residual Learning for Image Recognition）由何恺明、张祥雨、任少卿、孙剑等完成，其提出的残差连接使深层网络可训练性得到根本解决，成为深度学习标准组件。YOLO（You Only Look Once: Unified, Real-Time Object Detection）将目标检测重构为端到端回归，单次前馈即可获得所有目标位置和类别，在Titan X上达到45 FPS，开启了实时检测时代。两篇论文至今影响深远。

最佳学生论文提名ChordEdit：广工大本科生的低能量编辑创新。ChordEdit（ChordEdit: One-Step Low-Energy Transport for Image Editing）专注于单步文生图模型的图像编辑难题。该类模型生成速度快，但直接用于编辑时常出现物体变形、细节失真。ChordEdit基于动态最优传输理论设计了低能量传输策略，在源文本与目标文本分布间实现平滑编辑场，一大步完成稳定编辑。该文入选Oral，团队来自广东工业大学、惠州学院、深圳大学、北京大学，第一作者为广工大本科生，展示了非巨头团队在前沿方法上的创新能力。

名词解释：

4D重建： 在3D空间（长宽高）基础上增加时间维度，构建随时间变化的动态场景几何与运动。D4RT实现了从普通视频到4D重建的端到端前馈处理。

残差连接（Residual Connection）： 深度网络中的跳跃连接结构，允许梯度直接回传到浅层，有效解决了深层网络退化问题。ResNet首次大规模应用并成为标准组件。

YOLO（You Only Look Once）： 一种实时目标检测算法，将检测统一为单次回归任务，在单张图上同时预测边界框和类别，实现极快速度。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

CVPR 2026广东元素闪耀：何恺明再获时间检验奖，广工大本科生打破大厂名校垄断

大奖格局：华人主导与广东突破

获奖技术详解

阿逸

发表回复取消回复

大奖格局：华人主导与广东突破

获奖技术详解

阿逸

相关文章

数据标注基础设施：用CVAT和B2对象存储构建可扩展流水线

人形机器人走进福建茶园，茶叶采摘成为具身智能试金石

人工智能、大模型、深度学习、机器学习、NLP、计算机视觉之间是什么关系？

发表回复取消回复