1-1-什么是强化学习
Course: 吴恩达 强化学习入门
🎓 1.1 什么是强化学习
📢 课程引言
- 本内容属于机器学习专项课程的最后一周,主讲人对课程收尾既不舍又期待。
- 强化学习虽未在商业应用中广泛普及,但已是机器学习的重要支柱,前沿研究持续推进。
🚁 核心案例1:斯坦福自主直升机
- 基础配置:重约32磅,搭载机载计算机、GPS、加速度计、陀螺仪和磁罗盘,能精准定位自身状态。
- 核心任务:每秒需决策10次,根据位置、姿态、速度等信息,操控两个控制杆保持平衡并完成飞行。
- 强化学习成果:成功学会倒飞、空中特技等高危动作,相关视频可通过主讲人提供的网址查看。
🐶 核心案例2:强化学习训练的机器人狗
- 训练目标:让机器人狗向屏幕左侧移动。
- 奖励机制:朝着目标方向移动即可获得奖励。
- 学习成果:自主学会跨越、攀越各类障碍,无需人工指导四肢具体调整方式。
⚖️ 强化学习 vs 监督学习(以直升机飞行为例)
🔍 监督学习的局限性
- 核心逻辑:需要大量“状态x(位置/姿态等)- 理想动作y(控制杆操作)”的数据集,由专家标注。
- 实际问题:空中飞行时,精确的最优动作(如推力增减幅度)难以定义,无法获取高质量标注数据集,因此不适合机器人控制任务。
✨ 强化学习的优势
- 核心逻辑:无需指定每个状态的最优动作,仅通过奖励函数反馈“表现好坏”。
- 灵活性:只需明确“要什么”(目标),无需指导“怎么做”(具体动作),系统设计更灵活。
🏆 强化学习的核心:奖励函数
- 本质:像训练小狗一样,通过“正向奖励”和“负向惩罚”引导学习。
- 直升机奖励规则:飞行良好时每秒+1分;飞行不佳时给予负奖励;坠毁时给予-1000的极大负奖励。
- 核心目的:激励智能体(如直升机、机器狗)最大化累计奖励,规避惩罚行为。
📦 强化学习的应用领域
- 机器人控制:直升机特技飞行、机器人狗障碍跨越、月球着陆器着陆(实践实验室任务)。
- 工厂优化:调整工厂布局,最大化生产吞吐量和效率。
- 股票交易:序列化大额股票抛售节奏,减少价格波动影响,获取最佳交易价格。
- 游戏领域:从跳棋、国际象棋等传统游戏,到各类复杂电子游戏的AI设计。
📝 强化学习核心定义
- 核心输入:奖励函数(定义“表现好坏”的评判标准)。
- 学习逻辑:智能体通过与环境交互尝试动作,根据奖励反馈自主优化“状态→动作”的映射关系。
- 关键特点:无需标注的“状态-最优动作”数据集,仅需明确目标导向的奖励规则。
要不要我帮你补充一份强化学习核心概念速查表,包含关键术语、案例对比和应用场景总结,方便你快速复习?