机器狗能当羽毛球搭子了!仅靠强化学习从0自学还涌现出类人回位行为 Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学还涌现出类人回位行为 Science子刊


  

机器狗能当羽毛球搭子了!仅靠强化学习从0自学还涌现出类人回位行为 Science子刊

  基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部(18个自由度)移动,和手臂挥拍动作。

  在与人类选手的协作比赛中,某一回合连续击球10次,甚至涌现出如击球后回位中心的类人行为。

  该研究在各种环境中进行了大量实验,验证了四足机器人预测羽毛球轨迹、有效导航服务区域,以及对人类球员进行最精准打击的能力。

  它配备了一个带有全局快门的ZED X立体相机用于羽毛球感知。相机在坐标系中计算出的羽毛球位置,预测拦截位置,这个值和机器人本体感知观测值一起被喂给强化学习策略。

  此外,羽毛球拍相对于腕关节呈45角定向。研究人员表示,根据早期对不同朝向的仿真测试,这被证明是最有效的配置。

  如下图所示,在部署过程中,狗子以400 Hz的频率运行,同时机器人控制策略以100 Hz的速率更新观测值并发送关节位置指令。

  系统的感知包括羽毛球位置测量、状态估计和轨迹预测,它在Jetson AGX Orin模块上以60 Hz的频率异步运行。

  整个过程中,虽然存在一些失误,但狗子还是能够根据不同的速度和落点的来球做出适当反应。

  平均来说,感知模块在对手机球后需要花费0.357秒来判断拦截轨迹。通常,羽毛球会在0.654秒后达到四足底座上方1.25米然后被拦截。

  在给定真实感知(ground-truth perception)的情况下,研究人员评估了在指令挥拍时间到达拦截位置0.1米范围内(大约是球拍中心到边缘的距离)的击球百分比。

  不过,当狗子站在在发球区边界,或者羽毛球直接落在狗子身后时,机器狗预测羽毛球轨迹并成功拦截就变成了一件很有挑战性的任务。

  因为当羽毛球从正上方或正后方接近狗子时,它必须直接向上俯仰。这对机器狗来说很有难度。

  上图中的折线统计图B,绘制了执行的EE速度和最大基座角速度相对于指令速度的曲线m/s的挥拍速度时,狗子基本都能跟踪指令速度;速度超过10m/s时,精度就会下降。

  当命令他以19m/s挥拍时,机器狗出现了最高执行速度,即12.06m/s。相比之下,业余羽毛球运动员可以达到20m/s至30m/s的挥拍速度。

  如材料与方法部分所述,系统在接近其电流和关节速度极限的情况下运行以实现这些指令。此外,更高的指令速度导致基座角速度增加,表明基座姿态控制与操作器挥动之间存在耦合。

  在指令12m/s挥拍时,机器狗执行的平均挥拍速度为10.8m/s,平均位置误差为0.117米。

  此外,整个羽毛球大战中,机器狗会自主学习动态调整相机姿态,根据任务紧迫性动态调整步态,包括短距离微调姿态、中距离不规则步态、长距离类疾驰(Galloping)步态等。

  比如,它以快跑进行远距离快速拦截,并在近距离回击时稳定,动态协调手臂和腿部。

  打羽毛球的难点,就是需要运动员在步法和上肢运动之间进行复杂的相互协调作用。

  更进一步来说,需要机器狗在动态环境中协调下肢与上肢之间的运动,并使肢体控制与感知对齐。

  尽管在原理上,机器人拥有大量的自由度以实现灵活运动,但在实践中,这很大程度上取决于控制算法。

  在实际应用中,另一种大家熟知的球类——乒乓球,在精确性和策略方面的研究都更为广泛,这类情况目前主要的解决办法是使用带有外部视觉系统的固定基座或龙门式操作器。

  。它用于涉及所有自由度的全身视觉运动技能,以实现有效的羽毛球跟踪和击打。

  在这样的框架中,教师策略没有动力去学习主动感知行为,因为它已经能够获得完美的观测结果;学生策略则仅基于部分观测和由本体感知和感知历史重构的潜在向量来模仿这些行为。

  因此,两种策略都没有发展出主动感知行为,并且在用于控制的信息上出现了差异。

  此外,该方法还包括一个羽毛球预测模型和用于鲁棒运动控制的约束强化学习,以增强部署准备度。

  该方法可以通过整合额外的传感模态来改进,例如通过扭矩和声音进行冲击检测,或加入额外的 RGB(红、绿、蓝)、深度或事件相机,以增强机器人在更激烈的游戏场景中的物理交互响应。

  鉴于人类球员通常通过观察对手动作来预测羽毛球轨迹,人体姿态估计也可能是一种提高策略性能的有价值模态。

2025-05-31 07:14