深度强化学习

学时 : 36课时（50分钟/课时）

你将使用深度神经网络，设计一个模拟环境中的决策系统；并将强化学习应用到电子游戏、机器人开发等前沿领域中。实战项目 6：训练四轴飞行器飞行你将通过构建惩罚函数、强化学习模型、深度学习隐藏层，帮助四轴飞行器了解它每个动作的优劣，选择更好的策略来平稳起飞和降落。深度强化学习让大疆、亿航的无人机变得更聪明

课程介绍

课程介绍：

1.介绍强化学习的基本知识，结合深度学习技术的深度强化学习算法，以当前国际主流的深度强化学习算法为核心，借助OpenAl-gym交互平台，学习算法的原理，基于python编程语言，实现算法。

2.介绍无人驾驶技术，并以开源环境Carla为仿真平台，实现基于深度强化学习的端到端控制决策。

3.研读重要的深度强化学习论文

课程目标：

1.理解强化学习理论与思想

2.掌握深度强化学习基本算法

3.了解深度强化学习在无人驾驶领域的应用

4.结合学员知识背景使用强化学习

课程案例：

1.Grid-world by value iteration

2.CartPole by DQN

3.Pong by Double DQN

4.CarRace by A3C

5.Breakout by DDPG

6.Autonomous Driving in Carla

学习基础：

1.概率论与数理统计

2.随机过程

3.机器学习

4.python

参考资料：

1.《概率论与数理统计（第4版）》高等教育出版社

2.应用随机过程概率模型导论（第11版）（图灵出品）

3.统计学习方法（第2版）清华大学出版社

4.python https://www.python.org

5.openAI gym https://gym.openai.com

6.强度学习课程 https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver

7.Carla https://carla.org

授课讲师

授课讲师：

刘博士

中国科学院深圳先进技术研究院计算机技术与应用博士

广东省科技计划重点项目：智能云机器人（负责任务分配算法）

专利《一种基于多机器人的仓储物流仿真系统》，申请号CN201810874102.4

深圳市基础科研：基于知识驱动的云机器人服务机制研究（参与人，负责资源分配、任务协作）

研究低速无人驾驶车辆在居民社区、大学城、工业园区等封闭室外环境下的货物配送

研究单车辆（多车辆）静态（动态）客户订单优化配送问题

研究方向：无人驾驶技术，强化学习方向

课程内容

课堂内容：

1.强化学习理论基础，马尔可夫过程

2.强化学习算法，动态规划，q-learning，SARSA

3.深度学习基础，前向传播，激活函数，损失函数，优化器，反向传播

4.深度需诶基本网络，全链接，CNN，RNN

5.基于价值函数的深度强化学习

6.策略梯度的深度强化学习

7.工程实例：基于深度强化学习的无人机驾驶技术