竞赛6:CVPR RHOBIN 2025 人物交互重建: 5冠2亚

发布时间:2025-07-05 打印[ ]

         继在 CVPR'23 和 CVPR'24 成功举办了第一和第二届 Rhobin 研讨会之后,本次为期半天的第三届 Rhobin 研讨会将继续为基于图像的人与物体交互重建领域的前沿研究提供展示和讨论的平台。此次研讨会的重点将不仅限于基于图像的交互重建,还将延伸至交互跟踪随时间的变化,并寻求与诸如第一人称视觉和动态场景交互等相关主题的联系。第三届 Rhobin 挑战赛将总共设置七个赛道,涵盖基于图像的人与物体交互跟踪和接触估计任务,使用 InterCap、DAMON 和 BEHAVE 数据集。

        人类在移动和与世界互动的过程中始终与世界保持着接触。为了更好地理解人类如何与世界互动,准确估计人体姿态、形状和动作至关重要。从图像或视频中估计 3D 人体姿态和动作已引起广泛关注。然而,在大多数情况下,该任务并未明确涉及物体以及与它们的交互。无论是二维检测还是单目三维重建,物体和人类大多都是分开研究的。考虑到它们之间的相互作用,可以将两者的优势结合起来。

        竞赛分为7个赛道:

T1:三维人体重建轨迹
T2:目标6DoF姿态估计跟踪
T3:关节人体物体重建
T4:无模板交互重建
T5:跟踪人-物交互
T6:三维人体接触预测
T7:基于RGB图像的语义三维接触预测

vRobotit实验室成绩:

实验室组织7个队伍,以北京邮电大学为牵头单位参加了7个赛道的比赛,获得5个冠军+2个亚军。



1. 3D 人体重建赛道

3D 人体重建赛道(3D human reconstruction)的目的是从2D图像重建3D人体动作。在涉及人-物交互的场景中,遮挡对重建3D人体带来了巨大挑战。人与物体之间的相互遮挡会隐藏关键的视觉线索,这使得难以重建精准的3D人体。团队采用一个先预测,后优化的流程:首先采用patch-level detection,对人体各部位分块处理,分别关注遮挡和非遮挡的部位。随后结合分割掩码作为引导,对该初始网格进行迭代优化,最终得到了准确的人体重建结果,白冰(硕士一年级)等获得了该挑战赛的冠军。

image.png 

image.png

image.png 

image.png 


 

2. 6D物体位姿估计赛道

该赛道聚焦于计算机视觉中的一个核心任务:6D物体位姿估计(6-DoF Pose Estimation)。该任务要求在人和物体存在交互的场景中,估计生活中常见物体的6D位姿。团队的解决方案是将二维图像信息层层递进地转换为三维姿态:第一步,对被遮挡物体进行修复和信息提取,以生成包含丰富信息的特征张量和完整的物体掩码;第二步,将修复后的二维图像点,转换成带有可信度评估的三维空间坐标;第三步,基于其中最可信的三维坐标,通过PnP求解器计算出物体准确的6D姿态,许博轩(硕士一年级)等最终获得了该赛道的冠军。

image.png 

image.png 

image.png 


image.png 


 

3. -物联合重建赛道

此赛道聚焦于单张图片中3D人与物体的联合重建(Joint human object reconstruction)。赛道的目标是输入一张普通的2D图像,重建出完整的人体和物体3D模型,并正确地还原它们之间的相对空间位置与接触关系。团队采用一种解耦估计-联合优化的技术范式。首先,通过一个双分支网络架构,对人体和物体的几何形态进行独立的初始参数回归,得到人和物独立的参数。接着引入一个基于图的Transformer模块用于编码人-物交互的局部上下文特征,以建模人与物之间的交互关系。最后,基于模型学习到的交互表示,对初始位姿进行精细配准,输出人体顶点和物体6D位姿,王胤哲(硕士一年级)等最终获得了冠军。

image.png 

image.png 

image.png 

image.png 

 

4. 视频人-物联合重建赛道

该任务的要求是从单目视频中重建人和物体的3D运动(reconstruction of human-object interaction from monocular RGB cameras)。从RGB视频中重建3D运动非常具有挑战性,而人和物体的联合重建中存在的遮挡加剧了任务的难度。区别于基于图像的任务,基于视频的人-物联合重建对效率、时序稳定性提出更高要求。团队提出了一个高效的端到端框架,将视频中复杂冗余的信息经过预训练模型提取为高维的单帧特征,通过高效的端到端训练来实现更好地3D-物重建。此外,团队采用了一个人和物体信息交叉模块来学习人和物体在运动中的稳定交互,取得了优异的性能,张永昌(博士四年级)等最终获得了该挑战赛的冠军。

image.png 

image.png 


image.png 





5.基于语义的3D接触预测赛道

image.png

image.png

理解图像中人和世界的接触对三维重建、 虚拟现实、人机交互等领域具有重要意义。该赛道致力于进一步理解人和周围世界的接触,对于一张图片,要求给出图片中人体在3D层面的精细接触,以及与什么物体接触。团队采用了一种多阶段的策略,第一阶段设计了一个基于HRNet的网络从图片中预测人体的稠密接触,第二步采用一个基于YOLO的目标检测算法判断图片中的物体类别和位置,第三阶段从单张图片中重建人体的3D动作并投影回图像中,结合前两个阶段的结果得到语义级别的接触,该方案采用coarse-to-fine的策略取得了优异的性能,康睿哲(硕士二年级)等获得该赛道的冠军。