深度强化学习
学时 : 36课时(50分钟/课时)
你将使用深度神经网络,设计一个模拟环境中的决策系统;并将强化学习应用到电子游戏、机器人开发等前沿领域中。实战项目 6:训练四轴飞行器飞行你将通过构建惩罚函数、强化学习模型、深度学习隐藏层,帮助四轴飞行器了解它每个动作的优劣,选择更好的策略来平稳起飞和降落。深度强化学习让大疆、亿航的无人机变得更聪明
课程介绍
课程介绍:
1.介绍强化学习的基本知识,结合深度学习技术的深度强化学习算法,以当前国际主流的深度强化学习算法为核心,借助OpenAl-gym交互平台,学习算法的原理,基于python编程语言,实现算法。
2.介绍无人驾驶技术,并以开源环境Carla为仿真平台,实现基于深度强化学习的端到端控制决策。
3.研读重要的深度强化学习论文
课程目标:
1.理解强化学习理论与思想
2.掌握深度强化学习基本算法
3.了解深度强化学习在无人驾驶领域的应用
4.结合学员知识背景使用强化学习
课程案例:
1.Grid-world by value iteration
2.CartPole by DQN
3.Pong by Double DQN
4.CarRace by A3C
5.Breakout by DDPG
6.Autonomous Driving in Carla
学习基础:
1.概率论与数理统计
2.随机过程
3.机器学习
4.python
参考资料:
1.《概率论与数理统计(第4版)》高等教育出版社
2.应用随机过程 概率模型导论(第11版)(图灵出品)
3.统计学习方法(第2版)清华大学出版社
4.python https://www.python.org
5.openAI gym https://gym.openai.com
6.强度学习课程 https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver
7.Carla https://carla.org
授课讲师
授课讲师:
中国科学院深圳先进技术研究院 计算机技术与应用 博士
广东省科技计划重点项目:智能云机器人(负责任务分配算法)
专利《一种基于多机器人的仓储物流仿真系统》,申请号CN201810874102.4
深圳市基础科研:基于知识驱动的云机器人服务机制研究(参与人,负责资源分配、任务协作)
研究低速无人驾驶车辆在居民社区、大学城、工业园区等封闭室外环境下的货物配送
研究单车辆(多车辆)静态(动态)客户订单优化配送问题
研究方向:无人驾驶技术,强化学习方向
课程内容
课堂内容:
1.强化学习理论基础,马尔可夫过程
2.强化学习算法,动态规划,q-learning,SARSA
3.深度学习基础,前向传播,激活函数,损失函数,优化器,反向传播
4.深度需诶基本网络,全链接,CNN,RNN
5.基于价值函数的深度强化学习
6.策略梯度的深度强化学习
7.工程实例:基于深度强化学习的无人机驾驶技术