来源: 阅读:- 2020-10-18 14:49:54
郭一璞 只想说 凹非寺
量子位 报导 | 微信公众号 QbitAI
上星期哪个在DOTA2 TI8比赛场上“装B不成功”的OpenAI Five,身后是增强学习的推动。
实际上不仅是OpenAI Five,下围棋的AlphaGo和AlphaGo Zero、玩雅达利经典街机的DeepMind DQN(deep Q-network),都离不了增强学习(Reinforcement Learning)。
如今,Google公布了一个根据TensorFlow的增强学习开源框架,全名是Dopamine。
此外,也有一组Dopamine的课堂教学colab。
和它的姓名Dopamine(胆碱)一样,新架构听上来就激动人心。
清楚,简约,实用
新架构在设计方案时就秉持着清楚简约的核心理念,因此 编码相对性紧凑型,大概是十五个Python文档,根据Arcade Learning Environment (ALE)标准,融合了DQN、C51、 Rainbow agent精简和ICML 2018上的Implicit Quantile Networks。
可重现
新架构中编码被详细的检测遮盖,可做为填补文本文档的方式,还可以用ALE来评定。
标准检测
为了更好地让科学研究工作人员能迅速较为自身的念头和现有的方式 ,该架构出示了DQN、C51、 Rainbow agent精简和Implicit Quantile Networks的玩ALE标准下的那60个雅达利手机游戏的详细训炼数据信息,以Python pickle文档和JSON数据信息文件的格式储存,而且放进了一个数据可视化网页页面中。
此外,新架构中也有训炼好的深层互联网、初始统计分析系统日志,及其TensorBoard标明好的TensorFlow恶性事件文档。
开源框架資源
Dopamine谷歌博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
Dopamine github免费下载:
https://github.com/google/dopamine/tree/master/docs#downloads
colabs:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md
手机游戏训炼数据可视化网页页面:
https://google.github.io/dopamine/baselines/plots.html
相关资料
ALE标准:
https://arxiv.org/abs/1207.4708
DQN(DeepMind):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
C51(ICML 2017):
https://arxiv.org/abs/1707.06887
Rainbow:
https://arxiv.org/abs/1710.02298
Implicit Quantile Networks(ICML 2018):
https://arxiv.org/abs/1806.06923
— 完 —
真挚招骋
量子位已经征募编写/新闻记者,工作中地址在中关村。希望有才华、有激情的同学们加入团队!有关关键点,请在量子位微信公众号(QbitAI)会话页面,回应“招骋”两字。
量子位 QbitAI · 今日头条号签订创作者
վ'ᴗ' ի 跟踪AI技术性和商品最新消息
(正文已结束)
免责声明及提醒:此文内容为本网所转载企业宣传资讯,该相关信息仅为宣传及传递更多信息之目的,不代表本网站观点,文章真实性请浏览者慎重核实!任何投资加盟均有风险,提醒广大民众投资需谨慎!