1. 四足机器人滑行控制的挑战与机遇四足机器人在复杂地形移动方面展现出巨大潜力但传统行走模式在平滑地面上的速度和能效始终无法与轮式机器人媲美。2018年苏黎世联邦理工学院的研究团队首次在ANYmal机器人上展示了被动轮滑行技术相比传统步态可降低30%的能量消耗。这种混合运动模式通过在足端安装被动轮既保留了腿式机器人的地形适应能力又获得了轮式运动的高效特性。然而被动轮滑行面临两个核心挑战首先轮子无法主动驱动机器人的运动完全依赖腿部动作与地面摩擦的耦合作用其次轮子的安装角度直接影响运动性能不当的设计会导致控制困难。传统方法依赖工程师手动调试轮子角度和控制参数不仅耗时耗力而且难以找到全局最优解。2. 硬件-控制协同设计框架2.1 双层优化架构我们提出了一种双层优化框架来解决上述挑战。上层采用贝叶斯优化(BO)搜索机械设计空间下层使用强化学习(RL)为每个候选设计训练专用控制策略。这种架构的优势在于设计空间探索BO通过高斯过程建模能高效搜索高维参数空间。对于四足机器人我们主要优化四个轮子的偏航安装角ψ如图1所示这些角度决定了轮子的滚动方向。策略学习效率每个候选设计都对应一个专门的RL策略避免了一刀切策略的妥协。在IsaacLab仿真环境中我们使用4096个并行环境进行训练20秒内可完成约100万步的经验收集。图1被动轮安装示意图。每个足端的3D打印支架固定一个被动轮关键设计参数是轮子x轴与机器人矢状面x轴的夹角ψ。2.2 强化学习设置细节控制策略采用PPO算法训练观测空间包括基座线速度/角速度指令值与实际值关节位置/速度上一时刻的动作投影重力向量表示基座姿态动作空间为12个关节的目标位置通过PD控制器转换为扭矩τ kp(qcmd - q) - kd˙q其中kp80 N·m/radkd1 N·m·s/rad。奖励函数设计是性能的关键包含运动跟踪项线速度、角速度、高度和姿态跟踪能量效率项扭矩平方和反映电机功耗安全限制项关节限位、碰撞力、腿部伸展惩罚特别地线速度跟踪奖励有两种形式基坐标系命令直接跟踪机器人本体坐标系下的速度世界坐标系命令跟踪全局坐标系下的速度允许机器人自主调整身体朝向3. 贝叶斯优化的实现技巧3.1 设计空间参数化最通用的参数化是为每条腿独立指定角度d[ψ_FR, ψ_FL, ψ_RR, ψ_RL]。利用对称性可简化为1D参数化ψ_FR-ψ_FLψ_RR-ψ_RLψ所有轮子对称安装2D参数化ψ_FR-ψ_FLψ_frontψ_RR-ψ_RLψ_rear前后腿独立优化实验表明2D参数化能找到更优解但需要更多计算资源。建议初期使用1D参数化快速验证方案可行性。3.2 目标函数设计我们采用运输成本(CoT)作为优化目标CoT ||τ||² / (mg||ξ||)其中ξ[v_x, v_y, ω_z]是运动向量。这个指标同时考虑了能量消耗和运动性能。BO使用两阶段采集函数策略初期采用UCB上置信界进行广泛探索后期切换为EI期望改进进行局部优化 这种组合既保证全局搜索能力又能快速收敛到最优区域。4. 关键实验结果与分析4.1 能效比较在1.5 m/s速度下测试不同运动方向的CoT如图2所示人工设计仅在正向0°运动时效率高于行走协同设计在所有方向都表现出更高能效最优2D设计特定方向约-10°的CoT比人工设计低14.6%图2不同设计在各运动方向上的CoT比较。极坐标角度表示运动方向半径表示CoT值。4.2 紧急制动行为使用世界坐标系命令时机器人自发学会了冰球式急停快速旋转身体使侧向与运动方向对齐利用侧向最大摩擦力实现快速减速 实测显示从2 m/s减速到静止的时间比基坐标系策略缩短50%。这种 emergent behavior涌现行为展示了RL的优势——无需显式编程机器人自动发现物理系统的最佳利用方式。4.3 自对齐运动2D优化设计还表现出自对齐特性在没有角速度指令的情况下机器人会自动调整身体朝向最节能的方向运动。这类似于帆船调整帆面角度利用风力的原理。5. 工程实现中的经验教训5.1 硬件制作要点轮子选择我们测试了PU轮85A硬度和橡胶轮前者在平滑地面表现更好后者适合粗糙路面。轮径建议8-10cm过小会影响越障能力。支架设计3D打印需使用尼龙材料如PA12ABS在反复冲击下易开裂。我们设计了可调角度的模块化支架便于实验迭代。重量平衡每个轮组轮子支架应控制在150g以内过重会增加腿部惯量影响动态性能。5.2 训练技巧课程学习先从低速0.5 m/s开始训练逐步提高难度。直接训练高速运动容易导致策略陷入局部最优。观测噪声添加高斯噪声线速度±0.1 m/s角速度±0.05 rad/s可提升策略的鲁棒性。早期终止当基座倾斜超过30°时终止episode避免学习危险姿态。5.3 实机调试陷阱sim-to-real间隙仿真中摩擦系数设为0.7实际环氧地坪只有0.5左右需在策略迁移时进行动态调整。延迟补偿实际电机响应比仿真慢约20ms需要在观测中添加历史帧我们使用过去3帧来补偿。轮子打滑检测通过比较命令速度与实际速度的差异来识别打滑触发恢复策略。6. 扩展应用与未来方向这套方法不仅适用于滑行控制还可推广到其他混合运动模式轮腿式爬楼梯优化轮径与腿长的比例沙地运动协同设计足端形状与步态负载运输优化机身刚度与控制参数未来工作将聚焦三个方向在线适应开发能自动调整设计参数的实时算法多目标优化同时优化能效、速度和鲁棒性材料创新探索可变刚度轮子的设计空间我们在Unitree Go1上的实验表明协同设计方法显著提升了性能指标最大速度提升35%从2.1到2.8 m/s续航时间延长40%从45到63分钟。这为四足机器人在物流、巡检等场景的应用开辟了新可能。