演讲柯洁的演讲稿

时间：2013-06-29 01:35

如何打造史上最强AlphaGo

The advent of artificial intelligence, some people worry about unemployment, some people look forward to the future, there are people in the industry to explore opportunities, there are people in the study of chess. Before discussing this, maybe we should think about the end of human beings.Some people may think it is too exaggerated to talk about this topic,The first memories of what happened in the history of human beings what incredible things.Unbelievable things, need to take some riders to determine.We asked a was born in the year 2000 was born (Han) through to 1600 A.D. (Ming Dynasty), despite crossing the 1600 years, but the man may to around people's life will not feel too exaggerated, but for several dynasties, still live a facing loess back upturned, bale.But if the British, who had been in the UK for 1 1600, crossed to England in 1850 to see the huge steel monster running around in the water, the man might have been scared straight away, a man 250 years ago.If we get a person from 1850 through to 1980, I heard that a bomb can be razed to the ground by a city, the person may directly scared silly, 130 years ago Nobel is not invented dynamite.Then 1 more people in 1980 to the present? This person will not be scared?If 35 years ago, almost completely unable to imagine the life of the Internet age, then the human civilization into the development of the index today, how can we imagine 35 years after the era?Super artificial intelligence, is 35 years after the ruler.First, we define the classification of artificial intelligence:The current mainstream view of the classification is three.Weak artificial intelligence: weak artificial intelligence is good at a single aspect of artificial intelligence. For example, Alfa dog, can overcome the human in the game, but you have to ask him Li Shishi and Ke Jie who is more handsome, he can not answer.Weak artificial intelligence depends on the computer's powerful computing power and repetitive logic, seemingly smart, in fact, can only do some of the precision of manual work.At present, there are many in the automotive production line is weak artificial intelligence, so in the era of weak artificial intelligence development, human beings are indeed usher in a number of unemployed tide, but also to explore a lot of new industries.Strong artificial intelligence: the human level of artificial intelligence. Strong AI is artificial intelligence in various aspects can emulate the human and human, capable of living brain are capable of it. Create strong artificial intelligence is much more difficult than to create a weak artificial intelligence.Baidu Baidu's brain and Microsoft wheatgrass, are regarded as strong artificial intelligence to explore, through the huge data help strong artificial intelligence learning gradually.The arrival of the era of strong artificial intelligence, human beings will have a lot of new fun, there will be a lot of new moral concepts.Super artificial intelligence: all aspects of artificial intelligence more than humans. Super artificial intelligence can be a little stronger than the human, but also can be the existence of all aspects of the human strong trillion times.When artificial intelligence learning and self correction, will continue to accelerate learning. This process may will have a sense of self, may not produce self consciousness, only to be sure is his ability will be greatly improved, which including the ability to create (alpha dog will according to the player's the fewest adjustment strategy is the most superficial layer of innovation is reflected, the ordinary mobile phone version of the game, the fewest computer actually fixed several).We are far from the super artificial intelligence era, in the end how far it?The first is the computing power of the computer,Computer computing power doubling every two years, which is supported by historical data. At present, the capabilities of the human brain is 10^16 CPS, which is 1 quadrillion calculations per second. Now the fastest supercomputer, China's Milky way two, in fact, has more than this computing power.At present, our average person to buy computer computing power is only equivalent to the level of 1\\\/1000 of the human brain. Sounds like a weak burst, but according to the current development of electronic equipment speed, we spend 5000 yuan in 2025 to buy and the human brain computing speed to compete with the computer.The second is to make computers more intelligent,At present, there are two kinds of attempts to make computers become intelligent, one is to do research. Now, we have been able to simulate 1 mm long flatworms of the brain, the brain contains 302 neurons. The human brain has 100 billion neurons, and it sounds very far away. But to remember the power of exponential growth -- we have to small insect's brain, a simulation, the brains of the ants is not far away, then is the brains of rats, then simulated the human brain is not so unrealistic things.The other is to imitate the learning process, so that the artificial intelligence constantly revised. Based on the huge data generated by the Internet, so that artificial intelligence constantly learning new things, and constantly self correction. Baidu's Baidu brain is said to have 4 years of age, can be a continuous dialogue, you can judge a person's action according to the picture. Although the number is still a lot of mistakes, but this change ability is a qualitative change.In the eyes of the world's brightest scientists, the emergence of strong artificial intelligence is no longer a problem will not, but the problem of when, in 2013, a hundreds of artificial intelligence experts to participate in the survey do you predict human level artificial intelligence, when will come true? The results are as follows:2030: 42% of respondents believe that strong artificial intelligence will be achieved2050: 25% of respondents2070: 20%After 2070: 10%Never realized: 2%That is, more than 2\\\/3 of scientists think that 2050 years ago, the strong artificial intelligence will be realized, while only 2% of people think that it will never be achievedhis situation has never happened in history.Kurzweil is president of the singularity University (Google, the US National Aeronautics and Space Administration and a number of technical experts to jointly establish) with more optimistic estimates, he believed that computers would be a strong artificial intelligence in 2029, by 2045, enter the era of super artificial intelligence.So, if you think you can live for 30 or 40 years, then you should be able to witness the emergence of super artificial intelligence.翻译：人工智能来临，有人在担忧失业，有人在憧憬未来，有人在发掘行业机会，也有人在研究围棋。

在讨论这些之前，也许我们应该先考虑一下人类的结局。

有人可能觉得谈论这个话题太夸张了，那先回忆一下人类历史上究竟发生了哪些不可思议的事情。

不可思议的事情，需要请几个穿越者来判定。

我们请1个出生于公元0年出生的人（汉朝人）穿越到公元1600年（明朝），尽管跨越了1600年，但这个人可能对周围人的生活不会感到太夸张，只不过换了几个王朝，依旧过着面朝黄土背朝天的日子罢了。

但如果请1个1600年的英国人穿越到1850年的英国，看到巨大的钢铁怪物在水上路上跑来跑去，这个人可能直接被吓尿了，这是250年前的人从未想象过的。

如果再请1个1850的人穿越到1980年，听说一颗炸弹可以夷平一座城市，这个人可能直接吓傻了，130年前诺贝尔都还没有发明出炸药。

那再请1个1980年的人到现在呢

这个人会不会被吓哭呢

如果35年前的人，几乎完全无法想象互联网时代的生活，那么人类文明进入指数发展的今天，我们怎么能想象35年后的时代

超人工智能，则是35年后的统治者。

首先，我们明确一下人工智能的分类：目前主流观点的分类是三种。

弱人工智能：弱人工智能是擅长于单个方面的人工智能。

比如阿尔法狗，能够在围棋方面战胜人类，但你要问他李世石和柯洁谁更帅，他就无法回答了。

弱人工智能依赖于计算机强大的运算能力和重复性的逻辑，看似聪明，其实只能做一些精密的体力活。

目前在汽车生产线上就有很多是弱人工智能，所以在弱人工智能发展的时代，人类确实会迎来一批失业潮，也会发掘出很多新行业。

强人工智能：人类级别的人工智能。

强人工智能是指在各方面都能和人类比肩的人工智能，人类能干的脑力活它都能干。

创造强人工智能比创造弱人工智能难得多。

百度的百度大脑和微软的小冰，都算是往强人工智能的探索，通过庞大的数据，帮助强人工智能逐渐学习。

强人工智能时代的到来，人类会有很多新的乐趣，也会有很多新的道德观念。

超人工智能：各方面都超过人类的人工智能。

超人工智能可以是各方面都比人类强一点，也可以是各方面都比人类强万亿倍的存在。

当人工智能学会学习和自我纠错之后，会不断加速学习，这个过程可能会产生自我意识，可能不会产生自我意识，唯一可以肯定的是他的能力会得到极大的提高，这其中包括创造能力（阿尔法狗会根据棋手的棋路调整策略就是最浅层的创新体现，普通手机版的围棋，电脑棋路其实就固定的几种）。

我们距离超人工智能时代，到底有多远呢

首先是电脑的运算能力，电脑运算能力每两年就翻一倍，这是有历史数据支撑的。

目前人脑的运算能力是10^16 cps，也就是1亿亿次计算每秒。

现在最快的超级计算机，中国的天河二号，其实已经超过这个运算力了。

而目前我们普通人买的电脑运算能力只相当于人脑千分之一的水平。

听起来还是弱爆了，但是，按照目前电子设备的发展速度，我们在2025年花5000人民币就可以买到和人脑运算速度抗衡的电脑了。

其次是让电脑变得智能，目前有两种尝试让电脑变得智能，一种是做类脑研究。

现在，我们已经能够模拟1毫米长的扁虫的大脑，这个大脑含有302个神经元。

人类的大脑有1000亿个神经元，听起来还差很远。

但是要记住指数增长的威力——我们已经能模拟小虫子的大脑了，蚂蚁的大脑也不远了，接着就是老鼠的大脑，到那时模拟人类大脑就不是那么不现实的事情了。

另一种是模仿学习过程，让人工智能不断修正。

基于互联网产生的庞大数据，让人工智能不断学习新的东西，并且不断进行自我更正。

百度的百度大脑据说目前有4岁的智力，可以进行几段连续的对话，可以根据图片判断一个人的动作。

尽管目前出错的次数依旧很多，但是这种能力的变化是一种质变。

在全球最聪明的科学家眼中，强人工智能的出现已经不再是会不会的问题，而是什么时候的问题，2013年，有一个数百位人工智能专家参与的调查 “你预测人类级别的强人工智能什么时候会实现

”结果如下：2030年：42%的回答者认为强人工智能会实现2050年：25%的回答者2070年：20%2070年以后：10%永远不会实现：2%也就是说，超过2\\\/3的科学家的科学家认为2050年前强人工智能就会实现，而只有2%的人认为它永远不会实现。

最关键的是，全球最顶尖的精英正在抛弃互联网，转向人工智能——斯坦福、麻省理工、卡内基梅隆、伯克利四所名校人工智能专业的博士生第一份offer已经可以拿到200-300万美金。

这种情况历史上从来没有发生过。

奇点大学（谷歌、美国国家航天航空局以及若干科技界专家联合建立）的校长库兹韦尔则抱有更乐观的估计，他相信电脑会在2029年达成强人工智能，到2045年，进入超人工智能时代。

所以，如果你觉得你还能活30、40年的话，那你应该能见证超人工智能的出现。

最强AlphaGo怎样炼成

最强AlphaGo Zero怎样炼成刚刚，Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA，Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。

由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文，相关的提问和讨论也异常热烈。

什么是AMA?AMA(Ask Me Anything)是由Reddit的特色栏目，你也可以将其理解为在线的“真心话大冒险”。

AMA一般会约定一个时间，并提前若干天在Reddit上收集问题，回答者统一解答。

本次Deepmind AMA的回答人是：David Silver：Deepmind强化学习组负责人，AlphaGo首席研究员。

David Silver1997年毕业于剑桥大学，获得艾迪生威斯利奖。

David于2004年在阿尔伯塔大学获得计算机博士学位，2013年加盟DeepMind，是AlphaGo项目的主要技术负责人。

Julian Schrittwieser：Deepmind高级软件工程师。

此前有多位机器学习界的大牛\\\/公司在Reddit Machine Learning版块开设AMA，包括：Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。

我们从今天Deepmind的AMA中选取了一些代表性的问题，整理如下：关于论文与技术细节Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的，自我对局也是不稳定和容易遗忘的，如果没有一个好的基于模仿的初始化状态和历史检查点，二者结合在一起应该是一个灾难...但Zero从零开始，我没有看到论文中有这部分的内容，你们是怎么做到的呢?David Silver：在深层增强学习上，AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。

通过使用AlphaGo搜索，我们可以极大改进策略和自我对局的结果，然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。

比起基于简便的基于梯度的策略改进，这样的做法会更加稳定。

Q：我注意到ELO等级分增长的数据只与到第40天，是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?David Silver：AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中，我们还有很长的路要走呐。

Q:关于论文的两个问题：Q1：您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。

虽然我不是100%理解围棋的规则，但8个层看起来也多了点吧?Q2：由于整个通道使用自我对局与最近的\\\/最好的模型进行比较，你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?David Silver：说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因：1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据，我们可以更好地猜测对手最近下的位置，这可以作为一种关注机制(注：在围棋中，这叫“敌之要点即我之要点”)，而第17层用于标注我们现在究竟是执黑子还是白子，因为要考虑贴目的关系。

Q：有了强大的棋类引擎，我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的，那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。

Julian Schrittwieser：感谢分享，这个主意很棒!我认为在围棋中这完全可以做到，或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。

Q: 既然AlphaGo已经退役了，是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。

还有，Hassabis在乌镇宣称的围棋工具将会什么时候发布?David Silver：现在这个工具正在准备中。

不久后你就能看到新的消息。

Q：AlphaGo开发过程中，在系统架构上遇到的最大障碍是什么?David Silver：我们遇到的一个重大挑战是在和李世石比赛的时候，当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响，也就是说，程序可能会错误理解当前盘面局势，并在错误的方向上持续许多步。

我们尝试了许多方案，包括引入更多的围棋知识或人类元知识来解决这个问题。

但最终我们取得了成功，从AlphaGo本身解决了这个问题，更多地依靠强化学习的力量来获得更高质量的解决方案。

围棋爱好者的问题Q：1846年，在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中，秀策下的第127手让幻庵因硕一时惊急两耳发赤，该手成为扭转败局的“耳赤一手”。

如果是AlphaGo，是否也会下出相同的一首棋?Julian Schrittwieser：我问了樊麾，他的回答是这样的：当时的围棋不贴目，而AlphaGo的对局中，黑棋需贴7.5目。

贴目情况不同造成了古今棋局的差异，如果让AlphaGo穿越到当年下那一手，很有可能下的是不同的另一个地方。

Q：从已发布的AlphaGo相互对局看，执白子的时间更为充裕，因而不少人猜测，7.5目的贴目太高了(注：现代围棋的贴目数也在不断变化，如在30年前，当时通行的是黑子贴白子5.5目)。

如果分析更大的数据集，是否可以对围棋的规则得出一些有趣的结论?(例如，执黑或者执白谁更有优势，贴目应该更高还是更低)Julian Schrittwieser：从我的经验和运行的结果看，7.5目的贴目对双方来说是均势的，黑子的胜率略高一些(55%左右)。

Q：你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说，第一手下在天元或者目外，甚至更奇怪的地方?如果不是，这是否是一种“习惯”，或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?David Silver：在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!即便在训练后期，我们仍然能看到四、六位超高目的开局，但很快就恢复到小目等正常的开局了。

Q：作为AlphaGo的超级粉丝，有一个问题一直在我心中：AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋，我也知道AlphaGo恐怕让不了柯洁两子，但我想你们一定很好奇，你们是否有做内部测试?David Silver：我们没有和人类棋手下让子棋。

当然，我们在测试不同版本的时候下过让子棋，在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中，后一个版本均可让三子击败前一个版本。

但是，因为AlphaGo是自我训练的，所以尤其擅长打败自己的较弱的前一版本，因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。

Q：你们有没有想过使用生成对抗网络(GAN)?David Sliver：从某种意义来讲，自我对弈就是对抗的过程。

每一次结果的迭代都是在试图找到之前版本的“反向策略”。

传言终结者Q：我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。

现在它的能力已经超过了人类，是否需要另外的机制来进一步突破?你们有做了什么样的工作?David Silver：实际上，我们从未引导过AlphaGo来解决具体的弱点。

我们始终专注于基础的机器学习算法，让AlphaGo可以学习修复自己的弱点。

当然你不可能达到100%的完美，所以缺点总会存在。

在实践中，我们需要通过正确的方法来确保训练不会落入局部最优的陷阱，但是我们从未使用过人为的推动。

关于DeepMind公司Q：我这里有几个问题：在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?David Silver：在DeepMind工作感觉好极了:)——这不是一个招聘广告，但我感觉每天可以在这里做我喜欢的事实在是太幸运了。

有很多(多到忙不过来!:))很酷的项目去参与。

我们很幸运有许多大牛在AlphaGo工作。

您可以通过查看相应的作者列表来获取更详细的信息。

Q: 你觉得本科生是否可以在人工智能领域取得成功?Julian Schrittwiese：当然。

我本人就只有计算机科学学士学位，这一领域变化迅速，我认为您可以从阅读最新的论文和试验中来进行自学。

另外，去那些做过机器学习项目的公司实习也是很有帮助的。

关于算法的扩展和其他项目Q：Hassabis今年三月份在剑桥的一个演讲中表示，AlphaGo项目未来目标之一是对神经网络进行解释。

我的问题是：ALphaGo在神经网络结构上取得了什么样的进展，或者说，对AlphaGo，神经网络仍然是神秘的黑盒子?David Silver：不仅仅是ALphaGo，可解释性是我们所有项目的一个非常有意思的课题。

Deepmind内部有多个团队从不同方式来探索我们的系统，最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么，效果非常不错!Q: 很高兴看到AlphaGo Zero的好成绩。

我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题，因此我对于在更长的训练过程中的行为尤其感兴趣。

AlphaGo的训练过程中，创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?David Silver：感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。

事实上，它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件)，您可以参考我们的方法和强化学习中的讨论，也很高兴看到在其他游戏中使用类似方法。

Q：为什么早期版本的AlphaGo没有尝试自我对弈?或者说，AlphaGo之前也尝试过自我对弈但效果不好?我对这个领域的发展和进步程度感到好奇。

相比起今天，在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?David Silver：创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。

我们最初的尝试包括你能查到的许多类似的算法，是相当不稳定的。

我们做了很多尝试，最终AlphaGo Zero算法是最有效的，而且似乎已经破解了这个特定的问题。

Q：你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如，自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?Julian Schrittwieser：这主要是由于价值\\\/政策网络上的双重改进，包括更好的训练和更好的架构。

具体参见论文图4对不同网络架构的比较。

Q：据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1\\\/10。

你们做了什么样的优化呢?Julian Schrittwieser：这主要是由于价值\\\/政策网络上的双重改进，包括更好的训练和更好的架构。

具体参见论文图4对不同网络架构的比较。

(你确认不是copy上一个问题的答案吗)Q：看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。

展望未来，您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?Julian Schrittwieser：是的，长期记忆可能是一个重要的因子，例如在“星际争霸”游戏中，你可能已经做出了上千个动作，但你还要记住你派出的侦察兵。

我认为现在已经有了令人振奋的组件(神经图灵机!)，但是我认为我们在这方面仍有很大的改进空间。

Q：David，我看过你的演讲视频，你提到增强学习可以用于金融交易，你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?David Silver：已经发表增强学习用于现实世界的财务算法的论文非常少见，但有一些经典论文值得一看，例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。

Q：你们和Facebook几乎同时研究围棋问题，你们能更快获得大师级表现的优势是什么?对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?David_Silver：Facebook更侧重于监督学习，我们选择更多地关注强化学习，因为我们认为AlphaGo最终将超越人类的知识。

我们最近的结果实际上表明，监督学习方法可以让人大吃一惊，但强化学习绝对是远远超出人类水平的关键之处。

最强AlphaGo怎样炼成

由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文，相关的提问和讨论也异常热烈。

什么是AMA?AMA(Ask Me Anything)是由Reddit的特色栏目，你也可以将其理解为在线的“真心话大冒险”。

AMA一般会约定一个时间，并提前若干天在Reddit上收集问题，回答者统一解答。

本次Deepmind AMA的回答人是：David Silver：Deepmind强化学习组负责人，AlphaGo首席研究员。

David Silver1997年毕业于剑桥大学，获得艾迪生威斯利奖。

David于2004年在阿尔伯塔大学获得计算机博士学位，2013年加盟DeepMind，是AlphaGo项目的主要技术负责人。

Julian Schrittwieser：Deepmind高级软件工程师。

通过使用AlphaGo搜索，我们可以极大改进策略和自我对局的结果，然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。

比起基于简便的基于梯度的策略改进，这样的做法会更加稳定。

Q: 既然AlphaGo已经退役了，是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。

还有，Hassabis在乌镇宣称的围棋工具将会什么时候发布?David Silver：现在这个工具正在准备中。

不久后你就能看到新的消息。

我们尝试了许多方案，包括引入更多的围棋知识或人类元知识来解决这个问题。

但最终我们取得了成功，从AlphaGo本身解决了这个问题，更多地依靠强化学习的力量来获得更高质量的解决方案。

如果是AlphaGo，是否也会下出相同的一首棋?Julian Schrittwieser：我问了樊麾，他的回答是这样的：当时的围棋不贴目，而AlphaGo的对局中，黑棋需贴7.5目。

贴目情况不同造成了古今棋局的差异，如果让AlphaGo穿越到当年下那一手，很有可能下的是不同的另一个地方。

当然，我们在测试不同版本的时候下过让子棋，在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中，后一个版本均可让三子击败前一个版本。

但是，因为AlphaGo是自我训练的，所以尤其擅长打败自己的较弱的前一版本，因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。

Q：你们有没有想过使用生成对抗网络(GAN)?David Sliver：从某种意义来讲，自我对弈就是对抗的过程。

每一次结果的迭代都是在试图找到之前版本的“反向策略”。

传言终结者Q：我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。

我们始终专注于基础的机器学习算法，让AlphaGo可以学习修复自己的弱点。

当然你不可能达到100%的完美，所以缺点总会存在。

在实践中，我们需要通过正确的方法来确保训练不会落入局部最优的陷阱，但是我们从未使用过人为的推动。

有很多(多到忙不过来!:))很酷的项目去参与。

我们很幸运有许多大牛在AlphaGo工作。

您可以通过查看相应的作者列表来获取更详细的信息。

Q: 你觉得本科生是否可以在人工智能领域取得成功?Julian Schrittwiese：当然。

我本人就只有计算机科学学士学位，这一领域变化迅速，我认为您可以从阅读最新的论文和试验中来进行自学。

另外，去那些做过机器学习项目的公司实习也是很有帮助的。

关于算法的扩展和其他项目Q：Hassabis今年三月份在剑桥的一个演讲中表示，AlphaGo项目未来目标之一是对神经网络进行解释。

我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题，因此我对于在更长的训练过程中的行为尤其感兴趣。

Q：为什么早期版本的AlphaGo没有尝试自我对弈?或者说，AlphaGo之前也尝试过自我对弈但效果不好?我对这个领域的发展和进步程度感到好奇。

我们最初的尝试包括你能查到的许多类似的算法，是相当不稳定的。

我们做了很多尝试，最终AlphaGo Zero算法是最有效的，而且似乎已经破解了这个特定的问题。

具体参见论文图4对不同网络架构的比较。

Q：据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1\\\/10。

你们做了什么样的优化呢?Julian Schrittwieser：这主要是由于价值\\\/政策网络上的双重改进，包括更好的训练和更好的架构。

具体参见论文图4对不同网络架构的比较。

(你确认不是copy上一个问题的答案吗)Q：看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。

我认为现在已经有了令人振奋的组件(神经图灵机!)，但是我认为我们在这方面仍有很大的改进空间。

我们最近的结果实际上表明，监督学习方法可以让人大吃一惊，但强化学习绝对是远远超出人类水平的关键之处。

对于最强AlphaGo Zero如何炼成的真心话，都在这里

最强alphago怎样炼成Q: Deepmind Zero的为什么如此稳定?深层次的增强学习是不稳容易遗忘的，自我对局也稳定和容易遗忘的，如果没有一个好的基于模仿的初始化状态和历史检查点，二者结合在一起应该是一个灾难...但Zero从零开始，我没有看到论文中有这部分的内容，你们是怎么做到的呢?David Silver：在深层增强学习上，AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。

通过使用AlphaGo搜索，我们可以极大改进策略和自我对局的结果，然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。

比起基于简便的基于梯度的策略改进，这样的做法会更加稳定。

Q: 既然AlphaGo已经退役了，是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。

还有，Hassabis在乌镇宣称的围棋工具将会什么时候发布?David Silver：现在这个工具正在准备中。

不久后你就能看到新的消息。

我们尝试了许多方案，包括引入更多的围棋知识或人类元知识来解决这个问题。

但最终我们取得了成功，从AlphaGo本身解决了这个问题，更多地依靠强化学习的力量来获得更高质量的解决方案。

如果是AlphaGo，是否也会下出相同的一首棋?Julian Schrittwieser：我问了樊麾，他的回答是这样的：当时的围棋不贴目，而AlphaGo的对局中，黑棋需贴7.5目。

贴目情况不同造成了古今棋局的差异，如果让AlphaGo穿越到当年下那一手，很有可能下的是不同的另一个地方。

当然，我们在测试不同版本的时候下过让子棋，在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中，后一个版本均可让三子击败前一个版本。

但是，因为AlphaGo是自我训练的，所以尤其擅长打败自己的较弱的前一版本，因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。

Q：你们有没有想过使用生成对抗网络(GAN)?David Sliver：从某种意义来讲，自我对弈就是对抗的过程。

每一次结果的迭代都是在试图找到之前版本的“反向策略”。

传言终结者Q：我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。

我们始终专注于基础的机器学习算法，让AlphaGo可以学习修复自己的弱点。

当然你不可能达到100%的完美，所以缺点总会存在。

在实践中，我们需要通过正确的方法来确保训练不会落入局部最优的陷阱，但是我们从未使用过人为的推动。

有很多(多到忙不过来!:))很酷的项目去参与。

我们很幸运有许多大牛在AlphaGo工作。

您可以通过查看相应的作者列表来获取更详细的信息。

Q: 你觉得本科生是否可以在人工智能领域取得成功?Julian Schrittwiese：当然。

我本人就只有计算机科学学士学位，这一领域变化迅速，我认为您可以从阅读最新的论文和试验中来进行自学。

另外，去那些做过机器学习项目的公司实习也是很有帮助的。

关于算法的扩展和其他项目Q：Hassabis今年三月份在剑桥的一个演讲中表示，AlphaGo项目未来目标之一是对神经网络进行解释。

我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题，因此我对于在更长的训练过程中的行为尤其感兴趣。

Q：为什么早期版本的AlphaGo没有尝试自我对弈?或者说，AlphaGo之前也尝试过自我对弈但效果不好?我对这个领域的发展和进步程度感到好奇。

我们最初的尝试包括你能查到的许多类似的算法，是相当不稳定的。

我们做了很多尝试，最终AlphaGo Zero算法是最有效的，而且似乎已经破解了这个特定的问题。

具体参见论文图4对不同网络架构的比较。

Q：据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1\\\/10。

你们做了什么样的优化呢?Julian Schrittwieser：这主要是由于价值\\\/政策网络上的双重改进，包括更好的训练和更好的架构。

具体参见论文图4对不同网络架构的比较。

(你确认不是copy上一个问题的答案吗)Q：看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。

我认为现在已经有了令人振奋的组件(神经图灵机!)，但是我认为我们在这方面仍有很大的改进空间。

我们最近的结果实际上表明，监督学习方法可以让人大吃一惊，但强化学习绝对是远远超出人类水平的关键之处。

以人工智能将怎样影响我们的生活,写一篇短文

来临，有人在担忧失业，有人在憧憬未来，有人在发掘行业机会，也有人在研究围棋。

在讨论这些之前，也许我们应该先考虑一下人类的结局。

目前主流观点的分类是三种。

弱：弱是擅长于单个方面的人工智能。

比如阿尔法狗，能够在围棋方面战胜人类，但你要问他李世石和柯洁谁更帅，他就无法回答了。

弱人工智能依赖于计算机强大的运算能力和重复性的逻辑，看似聪明，其实只能做一些精密的体力活。

目前在上就有很多是弱人工智能，所以在弱人工智能发展的时代，人类确实会迎来一批失业潮，也会发掘出很多新行业。

强人工智能：人类级别的人工智能。

强人工智能是指在各方面都能和人类比肩的人工智能，人类能干的脑力活它都能干。

创造强人工智能比创造弱人工智能难得多。

百度的百度大脑和微软的小冰，都算是往强人工智能的探索，通过庞大的数据，帮助强人工智能逐渐学习。

强人工智能时代的到来，人类会有很多新的乐趣，也会有很多新的道德观念。

超人工智能：各方面都超过人类的人工智能。

超人工智能可以是各方面都比人类强一点，也可以是各方面都比人类强万亿倍的存在。