线上澳门葡京网

炼数成金 商业智能强化学习
订阅

强化学习

OpenAI开发AI版《文明》,一块CPU就能重现AI生存战争史
澳门葡京上网导航论坛
如果把AI放在资源有限的世界里,他们也会像人类一样竞争。OpenAI就做了这样一款名叫Neural MMO的AI训练游戏,让AI在一块限定的土地上求生,我们发现,AI也一样可以演化出悲壮的生存史诗。这是一场12800个AI之间的生 ...
星际争霸2人类1:10输给AI!DeepMind “AlphaStar”进化神速
澳门葡京上网导航论坛
刚刚,我们见证了 AI 与人类 PK 的又一次重大进展!DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar 5:0 战胜职业选手TLO ,5:0战胜 2018 年 WS ...
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
在 AlphaGo征服围棋之后,《星际争霸》一直被人工智能研究者视为下一个目标,因为它相比国际象棋与围棋更接近「复杂的现实世界」,DeepMind 科学家 Oriol Vinyals 曾表示:「能玩《星际争霸》的人工智能必须能够有效 ...
看漫画学强化学习
看漫画学强化学习
强化学习中最基础的四个概念:Agent, State, Action, Reward。Actor-Critic是一个混合算法,结合了Policy Gradient(Actor)与Value Function Approximation (Critic)两大类算法的优点。原漫画没有交待,一个agent为 ...
腾讯王者荣耀AI论文首次曝光:五AI王者局开黑与人类战队打成平手
腾讯王者荣耀AI论文首次曝光:五AI王者局开黑与人类战队打成平手
王者峡谷可能马上要被AI支配了!腾讯刚刚发布的一篇论文显示,王者荣耀AI在不声不响间,又掌握了新的技能:组团开黑。而且战绩不俗。5个各自独立的王者荣耀AI学会开黑技能后,5v5对阵《王者荣耀》王者段位人类玩家, ...
DeepMind贝叶斯优化调参AlphaGo,自弈胜率大涨16.5%
DeepMind贝叶斯优化调参AlphaGo,自弈胜率大涨16.5%
在AlphaGo的开发过程中,它的许多超参数都经过多次贝叶斯优化调整。这种自动调参过程使其棋力显著提高。在与李世乭的比赛之前,我们调整了最新的AlphaGo的参数,并在自弈对局测试中将胜率从50%提高到66.5%。这个经 ...
人体运动轨迹的人工智能动画模拟
人体运动轨迹的人工智能动画模拟
PBA非常类似于众所周知的强化学习(RL)领域。我们会创建一个实验对象,并希望它采取一些行动(比如,移动它的身体并创建一个动画)。但是,PBA和RL之间有着巨大的区别。在RL中,最重要的目标是最大化一些累积奖励信号 ...
AI新方向:对抗攻击
AI新方向:对抗攻击
对抗攻击的开山之作 Intriguing properties of neural networks中提到了神经网络的两个现象。第一个是高维神经网络的神经元并不是代表着某一个特征,而是所有特征混杂在所有神经元中;第二个是在原样本点上加上一些针 ...
快1万倍!伯克利提出用深度RL优化SQL查询
快1万倍!伯克利提出用深度RL优化SQL查询
数据库社区已经针对 SQL 查询优化问题进行了近 40 年的研究,可以追溯到 System R 的动态规划方法。查询优化的核心是连接排序问题。尽管这个问题由来已久,但仍然有很多研究项目尝试更好地理解多连接查询中的连接优 ...
强化学习AI滑翔机,不靠油,只靠风
强化学习AI滑翔机,不靠油,只靠风
从前天空是人类一直想要征服的地方,那一直都是云雾和彩虹的静谧之地,以及众神栖息的处所。从古希腊神话的天才工匠代达罗斯,到近代的自行车飞行器,再到后来的莱特兄弟,背后的索求可能是对自由孜孜以求之的勉励鸡 ...
「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则
「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则
David Silver 指出,客观、量化的评估方法是强化学习进展的重要驱动力:评估指标的选择决定了研究进展的方向;这可以说是强化学习项目中最重要的一个决定。David Silver 介绍了两种评估方法:David Silver 介绍了两 ...
深度强化学习:通过异步优势动作评价 (A3C) 算法玩 CartPole
深度强化学习:通过异步优势动作评价 (A3C) 算法玩 CartPole
在本教程中,我们将学习如何使用深度强化学习来训练模型,使其能够在简单的 CartPole 游戏中获胜。我们会使用 tf.keras 和 OpenAI Gym 并通过被称为异步优势动作评价 (A3C) 的技术来训练智能体。强化学习一直以来备 ...
泡沫破裂之后,强化学习路在何方?
泡沫破裂之后,强化学习路在何方?
过去三年间,DRL 算法在不同领域大显神通:在视频游戏、棋类游戏上打败人类顶尖高手;控制复杂的机械进行操作;调配网络资源;为数据中心大幅节能;甚至对机器学习算法自动调参。各大高校和企业纷纷参与其中,提出了 ...
open AI 在DOTA 5v5 比赛中战胜职业选手
open AI 在DOTA 5v5 比赛中战胜职业选手
去年,OpenAI 在 DOTA 的 1v1 比赛中战胜了职业玩家 Dendi,而在距离进阶版 OpenAI Five 系统战胜人类业余玩家不过一个月的时间,凌晨,它又以 2:1 的战绩再次完成对人类高级玩家的“屠杀”,GG(人类赢的最后一局纯 ...
指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法
指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法
发现最优的神经网络架构需要人类专家耗费大量精力才能实现。近来,人们对开发算法来解决架构设计过程的自动化问题产生了兴趣。自动化的架构搜索已经在诸如图像分类和目标检测这样的任务中获得了非常有竞争力的性能。 ...
123下一页

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-3-18 18:26 , Processed in 0.134165 second(s), 16 queries .