1-1-什么是强化学习

Course: 吴恩达 强化学习入门

🎓 1.1 什么是强化学习


  • 本内容属于机器学习专项课程的最后一周,主讲人对课程收尾既不舍又期待。
  • 强化学习虽未在商业应用中广泛普及,但已是机器学习的重要支柱,前沿研究持续推进。

  • 基础配置:重约32磅,搭载机载计算机、GPS、加速度计、陀螺仪和磁罗盘,能精准定位自身状态。
  • 核心任务:每秒需决策10次,根据位置、姿态、速度等信息,操控两个控制杆保持平衡并完成飞行。
  • 强化学习成果:成功学会倒飞、空中特技等高危动作,相关视频可通过主讲人提供的网址查看。

  • 训练目标:让机器人狗向屏幕左侧移动。
  • 奖励机制:朝着目标方向移动即可获得奖励。
  • 学习成果:自主学会跨越、攀越各类障碍,无需人工指导四肢具体调整方式。

  • 核心逻辑:需要大量“状态x(位置/姿态等)- 理想动作y(控制杆操作)”的数据集,由专家标注。
  • 实际问题:空中飞行时,精确的最优动作(如推力增减幅度)难以定义,无法获取高质量标注数据集,因此不适合机器人控制任务。
  • 核心逻辑:无需指定每个状态的最优动作,仅通过奖励函数反馈“表现好坏”。
  • 灵活性:只需明确“要什么”(目标),无需指导“怎么做”(具体动作),系统设计更灵活。

  • 本质:像训练小狗一样,通过“正向奖励”和“负向惩罚”引导学习。
  • 直升机奖励规则:飞行良好时每秒+1分;飞行不佳时给予负奖励;坠毁时给予-1000的极大负奖励。
  • 核心目的:激励智能体(如直升机、机器狗)最大化累计奖励,规避惩罚行为。

  • 机器人控制:直升机特技飞行、机器人狗障碍跨越、月球着陆器着陆(实践实验室任务)。
  • 工厂优化:调整工厂布局,最大化生产吞吐量和效率。
  • 股票交易:序列化大额股票抛售节奏,减少价格波动影响,获取最佳交易价格。
  • 游戏领域:从跳棋、国际象棋等传统游戏,到各类复杂电子游戏的AI设计。

  • 核心输入:奖励函数(定义“表现好坏”的评判标准)。
  • 学习逻辑:智能体通过与环境交互尝试动作,根据奖励反馈自主优化“状态→动作”的映射关系。
  • 关键特点:无需标注的“状态-最优动作”数据集,仅需明确目标导向的奖励规则。

要不要我帮你补充一份强化学习核心概念速查表,包含关键术语、案例对比和应用场景总结,方便你快速复习?