1-1-什么是强化学习

2025-11-18 2025-11-18

Course: 吴恩达强化学习入门

🎓 1.1 什么是强化学习

📢 课程引言

本内容属于机器学习专项课程的最后一周，主讲人对课程收尾既不舍又期待。
强化学习虽未在商业应用中广泛普及，但已是机器学习的重要支柱，前沿研究持续推进。

🚁 核心案例1：斯坦福自主直升机

基础配置：重约32磅，搭载机载计算机、GPS、加速度计、陀螺仪和磁罗盘，能精准定位自身状态。
核心任务：每秒需决策10次，根据位置、姿态、速度等信息，操控两个控制杆保持平衡并完成飞行。
强化学习成果：成功学会倒飞、空中特技等高危动作，相关视频可通过主讲人提供的网址查看。

🐶 核心案例2：强化学习训练的机器人狗

训练目标：让机器人狗向屏幕左侧移动。
奖励机制：朝着目标方向移动即可获得奖励。
学习成果：自主学会跨越、攀越各类障碍，无需人工指导四肢具体调整方式。

⚖️ 强化学习 vs 监督学习（以直升机飞行为例）

🔍 监督学习的局限性

核心逻辑：需要大量“状态x（位置/姿态等）- 理想动作y（控制杆操作）”的数据集，由专家标注。
实际问题：空中飞行时，精确的最优动作（如推力增减幅度）难以定义，无法获取高质量标注数据集，因此不适合机器人控制任务。

✨ 强化学习的优势

核心逻辑：无需指定每个状态的最优动作，仅通过奖励函数反馈“表现好坏”。
灵活性：只需明确“要什么”（目标），无需指导“怎么做”（具体动作），系统设计更灵活。

🏆 强化学习的核心：奖励函数

本质：像训练小狗一样，通过“正向奖励”和“负向惩罚”引导学习。
直升机奖励规则：飞行良好时每秒+1分；飞行不佳时给予负奖励；坠毁时给予-1000的极大负奖励。
核心目的：激励智能体（如直升机、机器狗）最大化累计奖励，规避惩罚行为。

📦 强化学习的应用领域

机器人控制：直升机特技飞行、机器人狗障碍跨越、月球着陆器着陆（实践实验室任务）。
工厂优化：调整工厂布局，最大化生产吞吐量和效率。
股票交易：序列化大额股票抛售节奏，减少价格波动影响，获取最佳交易价格。
游戏领域：从跳棋、国际象棋等传统游戏，到各类复杂电子游戏的AI设计。

📝 强化学习核心定义

核心输入：奖励函数（定义“表现好坏”的评判标准）。
学习逻辑：智能体通过与环境交互尝试动作，根据奖励反馈自主优化“状态→动作”的映射关系。
关键特点：无需标注的“状态-最优动作”数据集，仅需明确目标导向的奖励规则。

要不要我帮你补充一份强化学习核心概念速查表，包含关键术语、案例对比和应用场景总结，方便你快速复习？