基于插件的机器人行为学习框架 —— 首发公开:汽车 · 人形机器人
这是一个运行在结合了模仿学习(IL)与 FastTD3 强化学习(RL)的 RL→IL 管线之上、基于插件的 CLI 机器人行为学习框架。最先公开的两大旗舰域是 汽车(EulerDrive)和 人形机器人(EulerWalk) —— EulerDrive 提供多摄像头 BEV 自动驾驶(CARLA Town01 闭环验证),EulerWalk 提供人形机器人 RL→IL loco-manipulation 策略,两者均将预训练模型一并打包,无需训练、无需仿真器即可直接加载并运行。统一 obs/action 模式设计用于覆盖汽车、无人机、人形机器人、机器狗、移动操作、物流 AGV、农业机器人、造船厂起重机等 8 个域,而各个域则以 Domain Plugin 形式独立部署、持续扩展。
Open Source · v0.5.0首发公开 2 个域(汽车 · 人形机器人)+ 以插件持续扩展的 8 域模式 · 模仿学习 + FastTD3 强化学习 · SOTA 策略模型
Internal Schema Boundary — 每个域拥有固定维度模式,所有模块以一致方式通信。
| 汽车 (road) | 4D状态 + 2D动作 — CARLA联动,nuScenes适配器 |
|---|---|
| 无人机 (aerial) | 6D状态 + 3D动作 — AirSim骨架 |
| 人形机器人 | 33D状态 + 14D动作 (loco-manip) — MuJoCo Humanoid-v5 / HumanoidBench 联动 |
| 机器狗 (quadruped) | 12D状态 + 8D动作 — MuJoCo Ant-v5联动 |
工厂、物流、农业、造船 — 每个域包含专用Mock模拟器和数据适配器。
| 移动操作 | 18D状态 + 8D动作 — 推荐模型:ACT |
|---|---|
| 仓储AGV (warehouse) | 14D状态 + 4D动作 — 推荐模型:BC-RNN |
| 智慧农业机器人 | 16D状态 + 6D动作 — 推荐模型:Diffusion |
| 造船厂起重机 (shipyard) | 20D状态 + 9D动作 — 推荐模型:ACT |
| BC-MLP / RNN / CNN | 基础·时序·视觉行为克隆 |
|---|---|
| ACT | Action Chunking Transformer + CVAE(操作 SOTA) |
| Diffusion Policy | 基于扩散模型的策略 (DDPM) |
| SOTA (插件) | BEVFuser(多摄像头 BEV)、TemporalTransformer(Tesla-FSD 型)、WholeBodyACT(loco/manip 分离头) |
| RL Actor NEW | FastTD3 off-policy RL (twin critic, n-step) —— RL→IL 工作流 |
| L0 (Toy) | Mock 模拟器 + BC-MLP — 教程/CI用 |
|---|---|
| L1 (Intermediate) | 域推荐模型 + Mock — 算法研究 |
| L2 (Advanced) | 真实后端 (CARLA / MuJoCo / HumanoidBench) + SOTA 模型 |
最先公开的两个域。预训练模型已随包附带,无需训练、无需仿真器即可直接加载并运行。其余域以插件形式陆续扩展。
多摄像头 BEV 融合自动驾驶。由 BEVFuserPolicy + IPM BEV 投影 + PID 航点控制器组成,已在 CARLA Town01 三摄像头数据上完成闭环验证。
bevfuser_lite_carla_town01.pt。完整的 RL→IL 管线。先用 FastTD3 强化学习(RLTrainer)训练出专家,再生成演示,最后用 WholeBodyACT 模仿策略进行蒸馏。
wholebodyact_locomanip.pt、rl_actor_walk.pt。※ 首发公开的 2 个域(汽车 · 人形机器人)基于真实后端·数据集,属研究级;其余 6 个域在同一套统一模式之上以插件形式陆续公开。
从合成数据生成到仿真rollout的完整管线
合成数据生成、外部数据采集、增强、编辑——完整的数据工作流通过CLI完成。
在仿真中运行已学习的策略,并自动计算评估指标。
以命令组覆盖完整工作流(--lang 支持 5 种语言)
init从角色/级别自动生成 YAML 配置。
train训练 BC/IL 策略。支持续训、GPU、检查点、项目追踪。
train-rl NEW用 FastTD3 强化学习训练专家策略(RL→IL 工作流)。
simrollout/replay — 运行并评估策略。支持 --render / --save-video(MP4)。
datapull, ingest, augment, edit, collect, generate-demos — 数据管线。
modelexport/load — 管理模型卡(SafeTensors + config.json)。
skill内置技能查询、初始化、跨域迁移。
deploy通过 MessageBridge(mock/ROS2/ZeroMQ)部署策略。
scenario边角案例场景构建及套件运行。
validateYAML 配置文件验证(50+ 规则)。
edge边缘学习生命周期管理 —— 端侧学习、部署与监控。
pluginDomain Plugin 管理 —— 自定义域的注册、查询与初始化。
4层抽象栈将角色、配置、学习和评估分离
| Layer 4 | Skill/Meta-Agent — 基于角色/任务的推荐 |
|---|---|
| Layer 3 | Config/Validator — YAML 清单 + 50+ 验证规则 |
| Layer 2 | Data/Model/Training — 管线、策略网络、BCTrainer |
| Layer 1 | Sim/Eval/Backend — 模拟器、评估、轨迹 |
| Domain Plugin | 将自定义域(obs/action 模式、模拟器、适配器)作为插件注册 |
| 语言 | Python 3.11+ |
|---|---|
| 框架 | PyTorch, Gymnasium |
| 模拟器 | Mock(内置), CARLA, MuJoCo |
| 日志 | W&B, MLflow(可选) |
| 模型格式 | SafeTensors + config.json |
| 错误格式 | 3行格式 (Category / Fix / See) |
通过分步指南快速掌握EulerAtlas
教程即将公开。
安装EulerAtlas并训练您的第一个策略
Python 3.11+, PyTorch
MuJoCo, W&B(可选)