第 0 章:导论与环境搭建
理解具身智能的核心问题,搭建开发环境
教程
面向求职者的具身智能实战教程,覆盖视觉-语言-动作模型、世界模型和具身 Agent
理解具身智能的核心问题,搭建开发环境
从 ViT 到 CLIP 和 DINOv2,理解机器人如何'看懂'世界
理解 LLaVA、Flamingo 等 VLM 架构,让模型同时'看懂'图像和'听懂'语言
让机器人通过'看演示'学会操作——从 Behavior Cloning 到 ACT 和 Diffusion Policy
Vision-Language-Action 模型:从 RT-2 到 OpenVLA 和 π0
让机器人在'想象'中学习——从 DreamerV3 到扩散世界模型
当 VLA 遇到世界模型——想象增强策略、视频预测辅助动作、Cosmos + GR00T
让 LLM/VLM 驱动机器人自主完成任务——从 Code as Policies 到层次化 Agent
从仿真到真实——域随机化、Teacher-Student、让仿真策略在真实世界也能工作
PPO、SAC 和 model-based RL——与 VLA/世界模型相关的 RL 核心知识
Fine-tune OpenVLA 到自定义桌面操控任务——你的第一个 VLA 项目
训练一个视觉世界模型,然后在想象中训练策略
构建层次化 VLM-as-Planner + VLA-as-Executor 具身 Agent——简历核心项目