DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo
DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo
Hanwen Wang · Weizhi Zhao · Xiangyu Wang · Siyuan Huang · He Lin · Boyuan Zheng · Rongtao Xu · Gang Wang 等
一句话结论
DexJoCo 的价值不在于提出一个新策略模型,而在于把“灵巧手到底比夹爪强在哪里、现有 VLA/模仿学习策略在哪些灵巧交互上失败”变成了可系统测量的问题。它提供 11 个功能型 MuJoCo 任务、1.1K 条人类示范、低成本手套遥操作采集系统,以及面向视觉随机化、动力学随机化、多任务训练和 action-head 适配的评测工具链。对后续灵巧手机器人学习来说,这篇更像基础设施论文:它给出了一个比 pick-and-place 更接近真实灵巧操作的压力测试场。
关键词
摘要
中文摘要
实现接近人类水平的操作能力,需要机器人灵巧手能够处理复杂物体交互;而推进这类能力又需要标准化 benchmark 来进行系统评测。然而,现有灵巧操作基准缺少能够体现灵巧手相对平行夹爪独特能力的任务,也缺乏完整评测流水线。本文提出 DexJoCo,一个面向任务导向灵巧操作的 benchmark 与工具包,包含 11 个有功能语义的任务,用于评估工具使用、双手协调、长时程执行和推理能力。作者开发了一个低成本数据采集系统,并在这些任务上采集 1.1K 条轨迹,同时支持领域随机化来评估鲁棒性。论文在视觉与动力学随机化、多任务训练、action-head 适配等多种设置下评测现代模型,通过系统实验总结出当前灵巧操作策略的重要局限,为未来灵巧手机器人学习指出关键挑战。
英文摘要
Achieving human-level manipulation requires dexterous robotic hands capable of complex object interactions. Advancing such capabilities further demands standardized benchmarks for systematic evaluation. However, existing dexterous benchmarks lack tasks that reflect the unique manipulation capabilities of dexterous hands over parallel grippers, as well as comprehensive evaluation pipelines. In this paper, we present DexJoCo, a benchmark and toolkit for task-oriented dexterous manipulation, comprising 11 functionally grounded tasks that evaluate tool-use, bimanual coordination, long-horizon execution, and reasoning. We develop a low-cost data collection system and collect 1.1K trajectories across these tasks, with support for domain randomization to assess robustness. We benchmark modern models under diverse settings, including visual and dynamics randomization, multi-task training, and action-head adaptation. Through extensive empirical analysis, we identify several important insights and common limitations of current policies in dexterous manipulation, highlighting key challenges for future research in dexterous hand robot learning.
直观理解
可以把 DexJoCo 理解成一个“灵巧手版 LIBERO / CALVIN”,但任务设计刻意避开简单抓取搬运,转向浇花、敲钉子、折眼镜、开微波炉、解锁 iPad、汉诺塔、装配、拍照等需要手指协调、接触反馈、顺序约束和双手分工的场景。作者不仅搭了仿真环境,还配了一套用 Rokoko 手套和 Vive Tracker 采集人类示范的低成本系统,再把这些数据转成 LeRobot / Diffusion Policy 等现代策略可以消费的格式。它真正想回答的是:当任务从“把东西拿起来”变成“用手完成一个有功能语义的动作”时,当前策略到底卡在哪里。

DexJoCo 总览:11 个任务、1.1K 人类示范、领域随机化回放与策略评测工具链。
背景与问题
为什么做
机器人操作社区已经有不少成熟的夹爪平台数据集和基准,但人类级操作往往依赖灵巧手:按按钮、挤压夹子、折叠眼镜、双手握持与插装、连续步骤执行等都不是简单开合夹爪能自然完成的。要推动这类能力,研究者需要标准化任务、可复现环境、统一数据格式和能暴露失败模式的评测协议。
问题缺口
现有灵巧手 benchmark 往往有四类不足:一是只考虑 hand-only 设置,脱离真实机械臂-手系统;二是任务集中在 in-hand manipulation 或 pick-and-place,不能凸显灵巧手相对夹爪的功能优势;三是缺少好用的人类示范采集系统,导致数据要么靠 RL 生成、要么行为不自然;四是缺乏统一语言指令与现代 VLA/模仿学习评测格式,难以比较不同策略。
方法
方法概述
DexJoCo 由四层组成:MuJoCo 中的机械臂-灵巧手任务环境、低成本人类示范采集系统、可转换为主流格式的数据管线,以及对 ACT、Diffusion Policy、π0.5、GR00T N1.5 等策略的统一评测协议。

DexJoCo pipeline:任务构建、遥操作采集、轨迹增强、格式转换和策略评测。
结果
结果速览表
| 维度 | DexJoCo 设计 | 为什么重要 |
|---|---|---|
| 任务 | 11 个功能型灵巧操作任务,覆盖工具使用、双手协调、长时程、推理 | 避免 benchmark 退化为简单抓取搬运 |
| 数据 | 1.1K 条人类示范轨迹 | 为模仿学习和 VLA 评测提供统一数据 |
| 采集 | Rokoko 手套 + Vive Tracker,约 2,300 美元 | 降低灵巧手数据采集门槛 |
| 随机化 | 对象、桌高、相机、光照、纹理、动力学 | 测试视觉与动力学鲁棒性 |
| 基线 | DP-T、DP-C、ACT、π0.5、GR00T N1.5 | 覆盖从经典模仿学习到现代 VLA 的策略类型 |
| 主要发现 | 视觉随机化、双手任务、精细交互、语言泛化仍是瓶颈 | 指向后续 hand-centric pretraining、多模态接触感知和更强时序记忆 |
洞察
可借鉴点
- 做灵巧手 benchmark 时,应优先设计“功能完成条件”,而不是只定义末端位姿误差。
- 数据采集系统可以采用低成本手套 + tracker + retargeting,而不必一开始就依赖昂贵动捕房。
- 评测协议应同时包含视觉随机化、动力学随机化和 action-head adaptation,否则很容易高估模型能力。
- failure taxonomy 应成为 benchmark 的一部分:成功率之外,还要记录精细动作失败、插入失败、记忆失败、交互元素忽略等模式。
风险与判断
局限
- DexJoCo 仍是 MuJoCo 仿真 benchmark,真实机器人部署中的接触、摩擦、传感器噪声、材质形变和执行延迟没有被完整覆盖。
- 数据规模为 1.1K 条轨迹,对训练大规模通用灵巧手策略来说仍偏小,更适合评测和方法验证,而不是单独支撑 foundation model 训练。
- 任务虽然比 pick-and-place 更丰富,但仍集中在桌面场景和固定机器人/手配置上,对移动操作、软体物体、复杂工具链和开放世界任务覆盖有限。
- 论文暴露了语言泛化失败,但没有提供解决方法;它更像诊断工具,而不是完整模型方案。
适用场景
- 用作灵巧手模仿学习、VLA action head 适配、视觉鲁棒性、双手协调和接触密集操作的统一评测场。
- 用作新数据生成/遥操作采集方法的下游验证,例如从人类视频生成轨迹后在 DexJoCo 任务上训练策略。
- 用作分析策略失败模式的工具,尤其适合研究按钮、铰链、插装、长时程和双手任务。
最终判断
- 这是一篇值得放进知识库的基础设施论文。它本身不解决灵巧手策略学习,但清楚定义了“哪些能力还没解决”,并给出可复现实验场。对 FollowHub 的 embodied intelligence 线索来说,DexJoCo 可以作为评测基准节点,连接 OpenVLA/π0.5/GR00T 等 VLA 模型、DexImit 这类数据生成工作,以及未来 hand-centric foundation model 方向。
图表
相关主题
继续阅读
上一篇
AttenA+: Rectifying Action Inequality in Robotic Foundation Models
AttenA+ 的核心价值是指出 VLA/WAM 训练里一个很朴素但长期被忽略的问题:机器人动作时间步并不等价,慢速精细动作往往比快速过渡动作更决定任务成败。它用速度场给低速关键动作更高 loss 权重,不改模型结构、不加参数,却能在 Libero、RoboTwin 2.0 和真实 Franka 任务上稳定抬高强基线的上限。值得记住的不是某个复杂网络,而是“动作序列的物理结构可以直接进入训练目标”。
下一篇
Emergence of Human to Robot Transfer in Vision-Language-Action Models
这篇论文的关键判断是:`human-to-robot transfer` 不是简单靠对齐技巧手工做出来的,而是会随着 VLA 预训练规模和多样性增长而“涌现”。也就是说,当机器人预训练覆盖足够多任务、场景和 embodiment 后,模型开始能够真正从 human video 中学到对机器人有用的东西。