我有口吃,最近一直在读文章练习,发现嘴里读多了会有口水,正常吗
1.解除说话时的紧张情绪,并注意消除不良刺激。
2.加强说话训练。
3.说话前不要乱想,不要给自己心理暗示,语速适当放缓,使表达自然。
对于口吃问题的原因和症状,人们取得了很大的共识。
但是,对于口吃矫正方法,人们却没有统一的共识,因为迄今为止,人们还没有找到行之有效的矫正口吃的方法。
口吃的矫正,虽然还处在探索阶段,但是也诞生了许多有一定效果的矫正方法,其中影响力比较大的是发音法、呼吸法、森田疗法、突破法、药物治疗方法。
发音法: 就是要在每句话的开始轻柔地发音,改变口吃者首字发音经常很急很重的特点。
说话的速度要降到很慢的程度,一开始时一分钟60-100字,而人们平时说话的速度要达到每分钟200字。
这样有两个效果,一是慢速让人心态平静,二是有一种节奏感。
这两点都能有效地减少口吃。
口吃者在朗诵和唱歌的时候不口吃,就是因为有一种稳定的节奏感在里面。
(诱导发音法):二十世纪上海著名口吃矫正专家、“中国口吃矫正之父”张景晖先生首先提出,所有的口吃发音关键都在于第一个字,在发第一个字的时候,要轻声吐气,稍微拖长一点尾音,只要能发出第一个字,后面的句子就可以有节奏的连贯发出来
呼吸法: 提倡腹式呼吸法。
由于深呼吸能使肌肉获得适当的运动和协调,能松弛与缓和身体各部和颜面肌肉的紧张状态,能逐渐消除伴随运动。
深呼吸能影响人的情绪,能使激动的情感得以缓和以致平息。
突破法: 口吃患者组织在一起或单独到人群密集的地方去演讲,唱歌,逐步克服说话的恐惧心理。
另外重要的一点是要大胆说话,许多名人如日本首相田中角荣就是通过大胆说话战胜了口吃。
有兴趣的网友可看看一位口吃患者当上记者的成功故事《磨81》,被誉为中国版《国王的演讲》。
可看看电视台记者的采访:优酷网:为了当记者,口吃猛人在公交车上演讲300多次 森田疗法: 森田疗法核心思想是“顺其自然,为所当为”。
放弃口吃的治疗,接受口吃,做自己应该做的事情。
这种思想类似于不治而愈。
该方法能有效的缓解口吃患者的心理压力。
药物治疗方法: 每天或需要说话之前,服一定当量的镇静剂,缓解紧张情绪,可以达到一定程度的预言流利。
在方法在西方国家较为流行。
有一定影响力的有Xanax,Celexa,prozac,Paxil ,zyprexa等药物。
注意:药物治疗方法必须要在医生监督下使用。
长期使用可能会对身体造成损害。
沉默疗法: 用英语表达就是:silence therapy。
在你紧张或有口吃预期的时候,少说或不说。
口吃是一种条件反射。
长年的口吃,会强化你的条件反射。
但是在紧张的环境下,少说或不说,使口吃的发生几率降低,口吃的条件反射就会逐渐淡化,最后消失。
需要强调的是,利用该方法,并不是要你不说话,少说话,恰恰相反,你需要经常跟人交流,多倾听,只是偶尔紧张或预期口吃的时候,适当少说而已。
口吃的矫正方法还有很多,除了对身体有损害的疗法之外,口吃患者都可以勇于尝试。
许多口吃患者通过上面的一些方法,获得了语言新生。
口吃不是一种简单的语言障碍。
它是生理和心理方面的一种复杂的功能紊乱。
对心理方面来说,我们可以这样说,口吃大体上由于口吃者不惜一切地避免口吃所引起的。
换句话说,它是口吃者对自己开的一个不可思议的玩笑。
接下来发生的一切就是在说话时你非常非常想流利的说话,以至于你试图让自己把话说得完美无缺。
你的压力也就越来越大,你的问题也就越来越严重。
不幸的是,语言的机制处于一种微妙的平衡状态,你越想不口吃,无意中口吃就越厉害。
口吃影响了你的情绪,因为作为一个口吃者是非常令人难受的。
可能他们会想作为一个口吃者真丢脸,即使事实上并不是这样。
结果是你对你的语言困难更加地敏感。
口吃的经历或者不能流利地说出想说的话让他们感到非常沮丧,这是事实。
结果是,某些环境下,口吃者感到非常困窘和丢脸,他们不得不忍受绝望、羞辱、自卑、沮丧,有时候还会有自我仇视。
人们的情绪会让他们产生恐惧和焦虑,这一切会从总体上影响到他们对他人和生活的态度。
正如狗摇动的尾巴对狗的个性有影响一样,口吃也改变了口吃者的个性,但是如果你不那么敏感,并且知道当口吃可能会发生或者口吃确实发生了,你根本没必要惊慌的话,很快你的语言就会流利的多。
口吃恐惧可能是对于单词、音节、某些人、某些场合、打电话、说自己的名字等等的恐惧。
如果你恐惧小一点。
压力轻一点,可能你也就不会有如此有的语言困难了。
当你的恐惧感很强烈,相应的压力会增强,你会口吃得更加频繁,更加严重。
有时候,你的恐惧感非常非常强,你会处于狂乱的境地,你的思想和行动近乎瘫痪。
这种恐惧和焦虑感妨碍你进入那些本来你很喜欢的场合,你的个人经历也失色许多。
这会让你感到更加耻辱和尴尬,你会觉得更加失败,因而你也会口吃得更厉害。
所以你的口吃程度和你心中的恐惧大小是成比例的。
紧张与放松 由于恐惧使肌肉过度紧张,所以肌肉的放松是治疗的一个主要的目标。
紧张,由于恐惧而产生,在激发患者的口吃中扮演了关键的角色,也是患者语言困难的直接触发器。
如果并不要求自己的语言毫无瑕疵的话,那么你的口吃就不会象现在这样多,或者至少你口吃起来也要容易的多。
压力是如何产生的
这很难回答。
据说,催眠术会对减轻压力有帮助。
如果你能够通过一些催眠术治疗降低或者消除自己的压力,那当然是非常好了,但是很不幸,没有迹象表明催眠术有长期的疗效。
还有另一种方法对患者的放松有帮助,许多患者都体会到喝一些酒精饮料或者处于轻度酒醉状态的话,他们会有一定程度的放松。
虽然这种方法通常会降低患者的压力,同时在大多数情况下,患者口吃也要少一些,我们还是只能很遗憾的说,这种效果是暂时性的。
所以很明显这种方法不值得推荐。
很不幸,我们也不能给患者推荐任何药物。
镇静剂完不成我们的任务。
放轻松 有人提议说,放松练习可以帮助患者降低或消除他们所体会到的紧张。
如果患者可以通过放松练习过程来消除紧张,并且这种效果持久的话,那绝对是了不起的治疗方法。
许多人投入了这一课题的研究,许多口吃者花了数以千计的时间进行这种练习,他们希望这一练习的效果能够对得起这一练习所需要的时间。
但是效果是否能令人满意,还没有被证明。
这并不意味着放松练习令人气馁。
因为学会放松对人们的总体健康有好处--即使他们不是口吃的治疗方法。
基本的原理还是:你越平静和放松,你得口吃就会越少。
这就是为什么我们要求你以一种流畅、缓慢、从容、深思熟虑的方式说话的原因之一,因为这有助于促使你以更平静和放松的方式进行交流。
比一般性的放松更为有实用的是特定肌肉的放松。
如果你能确定大部分紧张所在的位置,那么可能你应该学会在说话时放松这些肌肉。
有一些不同的肌肉放松练习方法,他们在特定的环境中会对你有帮助。
这些练习仅仅涉及某些肌肉,这些肌肉包括控制你的嘴唇、舌头、口腔、呼吸的肌肉,以及某种程度上控制声带的肌肉。
当你独自一人处于放松状态的时候,你可以故意的收缩和放松这些肌肉。
如果你能够在说话时放松这些肌肉的话,那肯定会对你有帮助。
我们也推荐经常进行柔软体操或者此类的体形训练。
这一思路在于身体练习不仅对于人们的健康有好处,同时也有助于帮助建立大多数口吃患者都缺乏的自信心。
同时也因为体形训练可以使患者倾向于挺胸抬头,站的很直。
这种姿势也能帮助患者产生自信心--一种你认为你比别人行,或者跟别人一样行的感觉。
在这个方面,身体训练也会对你有帮助。
转移注意力 如果有一些方法可以使你从恐惧的想法中转移注意力,那么你就不会想到你的口吃,可能你说话的时候也就没有问题了。
如果你能够忘记你是一个口吃者,你可能根本就不会口吃了,但是我们不知道怎样才能培养你形成这样一种“健忘”。
任何东西,只要它能让你从恐惧那里转移注意力,或者不去考虑口吃的威胁,通常都会给你暂时的轻松。
这就是为什么口吃者会受一些聪明的小把戏的误导,例如,他们会以一种唱歌方式说话,或跟着节拍器说话,或者说话的同时,扳手指、挥舞胳膊,或跺脚等等。
这些奇怪的说话方式和其他一些奇怪的方式会使患者短时间说话流利。
当你预期会遇到语言困难的时候,转移你的注意力,可以暂时的掩盖你的恐惧。
想想吧,你就是这样使用这些办法的。
但是这并不会永久的减轻你的恐惧或者口吃程度。
这些看起来稀奇古怪的方法,和新奇的矫正方法对患者起作用的方式是一样的---至少要等其新奇感消退之后--如果患者对它的效果深信不疑,并且他容易受心理暗示影响的话。
争取别人的支持 如果你能够得到在口吃领域接受过培训的称职的语言病理学家的帮助的话,那你是非常幸运的。
然而,我们的自我矫正计划是基于以下的假设作出的:你没有机会得到这样的专家的帮助。
即使你确实能得到他们的帮助,能否矫治成功基本上还是取决于你自身。
这并不意味着你应该拒绝别人的帮助,因为你需要别人和你说话,进行持续的练习。
如果你和一个家庭成员或一个好友关系很好,彼此互相信赖,并且你对他很有信心。
他\\\/她会在很多方面给你提供有价值的服务。
作为一个观察者,这样一个人可以看到或者听到你自己并不清楚的东西。
在你研究你口吃方式的时候(这将在以后讨论),在你遇到困难时,这样的一个朋友也有可能模仿你的口吃方式,帮助你弄清楚你的口吃行为。
他\\\/她也有可能陪伴你完成某些任务,在你去的成绩的时候赞扬你一下,通过鼓励你继续坚持知道你达到你的目标,给予你精神上的支持。
患有口吃的中外名人 1.伊索(Aesop)——古希腊寓言家,著名寓言集《伊索寓言》的作者; 2.亚里士多德(Aristotle)——古希腊思想家,亚历山大大帝的老师,著有《诗学》,提出学科分类思想,是人类文明史上的一个里程碑式的人物; 3.狄摩西尼(Demosthenes)——古希腊最伟大的政治家、演说家和雄辩家、希腊联军统帅,因口含石子在海边练习演说终成演说家而闻名; 4.克劳迪亚斯——古罗马皇帝,著有《我,克劳迪亚斯》; 5.牛顿(Issac Newton)——现代科学奠基人,奠定力学研究的基础; 6.波义耳(Robert Boyle)——物理学家,波义耳定律的发现者; 7.达尔文(Charles Darwin)——自然学家,进化论提出者,著有《物种起源》一书; 8.图灵(Alan Turing)——计算机科学的奠基人,首先提出图灵机概念; 9.拿破仑一世(Napoleon The First)——著名军事家、政治家,法国皇帝; 10.丘吉尔(Winston Churchill)——著名政治家、演说家、作家,英国首相,二战三巨头之一,诺贝尔文学奖获得者; 11.列宁(Lenin)——无产阶级革命家、演说家、政治家,十月革命领导人; 12.华盛顿(George Washington)——政治家,美国第一任总统; 13.西奥多.罗斯福(Theodore Roosevelt)——政治家、经济学家,美国总统; 14.摩西(Moses)——古希伯来先知,带领以色列人逃出埃及; 15.莫洛托夫(Molotov)——前苏联斯大林时代的外交部长; 16.卡罗尔(Lewis Carroll)——作家,《爱丽斯漫游奇境记》的作者; 17.玛丽莲.梦露(Marilyn Monroe)——好莱坞电影明星,代表作《七年之痒》; 18.布鲁斯.威利斯(Bruce Willis)——好莱坞电影明星,代表作《纽约大劫案》; 19.罗温·艾金森(Rowan Atkinson)——英国喜剧明星,主演《憨豆先生》; 20.哈伯(Ron Harper)——NBA巨星,公牛队主力; 21.乔治六世(King George VI of England)——英国国王,1936年12月11日至1952年2月6日在位; 22.葛瑞盖斯(Gareth Gates)—-英伦帅哥,由歌声感动全球乐迷,创造了21世纪的歌声奇迹; 23、韩非——思想家、法家思想代表人物之一; 24.柳亚子——近代诗人; 25.鲁迅——文学家,新文化运动领袖; 26.詹天佑——铁路工程师,京张铁路总设计师; 27.管仲——春秋时期的政治家; 28 周杰伦——台湾艺人; 29.郭沫若——作家; 30.邓艾——三国时期魏国的大将军; 31.光绪——清朝的皇帝; 32.载沣——清朝的摄政王,末代皇帝溥仪的生父; 33.曲啸——教育家; 34.杰克·韦尔奇——原通用电气(GE)董事长兼CEO; 35.汤姆·克鲁斯——美国著名影星; 36.周迅——幼时学别人口吃所致; 37.丁志诚——擅长演警察的男影星,表演时没有口吃现象; 38.朱光亚——中国科协主席; 39.钱三强——著名核物理学家,中国科学院院士; 40.宫磊——1985届中青队队长,1993赛季,以36球获得法属塔西提岛联赛最佳射手。
曾获得塔西提足协的世界足球先生投票,他也是迄今为止惟一获得世界足球先生提名的中国球员。
现任央视足球解说嘉宾; 41.田中角荣——日本首相; 42.拜登——奥巴马搭档,拜登29岁时当选参议员,是美国有史以来最年轻的参议员。
从1972年首次当选为国会参议员,到今天担任参院外交关系委员会主席,拜登已拥有30多年从政经验; 43.威廉·萨摩萨特、毛姆——英国著名小说家、戏剧家; 44.何玉鹏——作家,中国首部描写口吃患者奋斗爱情故事的激励小说《磨81》作者。
美国总统林肯克服口吃的方法 美国总统林肯天生说话有口吃,可是他自从立志要做律师之后,深深了解了口才的重要,从此每天到海边对着大海练习演讲。
经过千万遍的练习,林肯不仅成为一位名声斐然的律师,而且踏入政界,成为美国有史以来最为人怀念的一位总统。
现在大家提到林肯,只记得他留下脍炙人口的葛底斯堡演讲词,却绝少有人记得,他曾患有口吃,说话比一般人都差劲。
不断的努力,可以使林肯得到绝佳的口才,同样的道理,魅力也需要靠后天的努力,它不是抽象的,也不是天生的. 矫正口吃的几种有效方法 有些口吃结巴者对获取演说能力没有信心,认为自己的“生理缺陷”已把自己拒之演说门外。
如果你知道:古希腊的大演说家德莫西尼和现代日本前首相田中角荣就曾经是口吃者,你还坚持自己的看法吗 科学研究已经证明;口吃仅仅是一种通过模仿和某种暗示所形成的不良习惯,并不是发音器官有病变性毛病或遗传性疾病,更不是口吃者思维力迟钝,通过训练是完全能够矫正的。
下面介绍一种方法。
1.朗读矫正法 朗读能保持语言的连贯性,可以不断提高大脑皮层和发音器官的协调能力,有助于口吃的矫正。
口吃者大都有说话时即表现得心慌性急、肌肉紧张、急欲把话快速说完的心理内驱力。
为消除这一毛病,可以拿一篇自己熟悉的课文或文章来朗读。
读前,把心情平静下来并使肌肉放松。
开始朗读时,先慢速度进行并注意轻读每一句话的第一字音和句中词组的首字音。
如这样一段文字:我们一定要兢兢业业地做好自己的工作,加强同全国各族人民的团结,加强同全世界人民的团结,为把中国建设成为现代化的、高度文明、高度发达的社会主义国家而努力奋斗。
2.写字矫正法 说与写有着极为密切的关系。
有位科学家要求口吃者把他们所写的一切都用印刷体规矩地写出来。
这潦潦草草地写要多花费2—3倍的时间。
据说有的口吃患者坚持这样写字一星期,讲话的节奏逐渐均匀,最后就不再口吃了。
这是因为一丝不苟地写字会养成从容不迫的思维习惯。
3.字音纠正法 口吃的人有个毛病,即常对某些字的发音有困难。
如遇到有声母b、p、m或zh、ch、sh的字音就口吃。
口吃患者注意自己在哪些字上口吃,就把这些字单独记下来,进行专门训练。
4.体育疗法 经常参加体育锻炼,特别是经常做深呼吸对矫正口吃也很有帮助。
这是因为口吃患者有个特点,说话时心情紧张,急于把话说完,造成气短,从而破坏语言节奏,形成紊乱现象,使口吃加重。
所以口吃患者要经过体育活动,多做深呼吸,说话要慢一点,心情不必紧张,说不出来不硬说,停顿一会。
这样长期坚持下去,会使大脑皮层对发音器官的协调能力得到改善,建立起新的条件反射,使口吃的不良习惯得到矫正。
工夫不负有心人。
经验证明:只要持之以恒地练习,一般只要半年就可以把口吃矫正过来。
(三)朗读式训练法 这是美国总统林肯所使用的训练方法。
这种方法的主要内容就是通过朗读来获得口才。
其做法是: 1.低声朗读 林肯把历代学者、诗人和其他优秀人物的著作当成益友,通过低声细吟慢读,与作者作心灵上的无声交流。
他往往选择最精彩的作品慢慢地、细细地低声朗读,悉心领会其含义、气势、节奏乃至神韵。
他备了两本拜伦的诗集,一本放在办公室,一本放在家中,经过年长日久的反复诵读,两本诗集都被他翻得皮破页卷了。
真可谓“读破拜伦两卷书,万千精蕴自得知”。
2.高声诵读 经过低声诵读,林肯对作品加深了理解,也相当熟悉了。
接着,他就高声诵读,进而背诵。
他常常高声背诵拜伦、白朗宁的长诗。
进入白宫后,还常常放声朗读、背诵莎士比亚的《李尔王》、《哈姆雷特》等名剧的大段对话。
在看戏时,他甚至能够随口评论演员念词的正误,同时说出他本人的解释。
高声而有感情地朗读,对这些优秀作品理解得更加深透,记忆得极其牢固。
对其中的佳句,在演说或交谈时,能信手拈来,运用自如。
3.快速朗读 把作品读熟以后,林肯就试着快速朗读,限定时间,逐次加快速度,快而不乱,快而不错,最终做到—口气把一长段诗歌毫不停歇地背诵出来。
这样,既训]练了他高度灵敏的思维,又训练了他极好的记忆,还训练了他一种卓越的本领一一能在演讲中把一长串优美的语句倾斜直下,如急流飞瀑,奔腾万里,气势磅瞒。
4.模仿脚色朗读 林肯经过选择优秀剧本,把自己当做演员,“研究各种不同人物。
”模仿不同角色。
反复朗读,表现出不同的语气、语调和种种神态。
他曾经给当时的名演员哈凯特写信到:“我曾读过莎士比亚的几部名剧,比任何一个非职业的读者都熟悉……”这使得林肯在演说时能够惟妙惟肖地模仿各种人物的说话腔调,大大增强了演说的生动性。
卡尔-桑德斯堡曾在《林肯传》中这样描绘林肯:“他会扮演各种鬼脸,会讲滑稽的故事…… 5.面对听众朗读 林肯很喜欢把经典作品片段有声有色地读给别人听。
他千方百计争取听众,力求面对面地读给人听。
他会公开大声朗读,他会临时找人当听众。
有时他午夜醒来,会随手拿起枕边的诗集念起来。
一但发现特别美好的句子,他常常只穿睡衣,兴奋地跳下床来,还把一首首他认为最奇妙的诗高声念给秘书听。
读得抑扬顿挫,像是作者本人在与人畅谈似的。
林肯朗读的毅力是惊人的。
他从青少年时期起,到25岁就当选洲议员,47岁成为副总统候选人,52岁担任总统进入白宫以后,一直坚持朗读优秀文学作品。
即使在南北战争那段最繁忙的岁月里,他都忙里偷闲朗读一些作品。
正如马克斯所称颂的那样:林肯在“不屈不挠地迈向自己的目标。
”可以说,他一生时时伴随着演说活动也时时伴随着优秀作品的朗读。
朗读,是林垦从演说家迈向总统宝座的成功之路。
当然,林肯学会演说还用过其他多种方法,如,去法院旁听、归途中面对树桩、玉米杆等做模拟演说等。
朗读对他训练口才起了很大的作用,这一点则毫无疑问。
小学生的数学演讲稿
19世纪以前,数学家很难有自己作为数学家的职位,他们需要家庭、赞助人提供生活来源,因此大多数数学家不得不兼做其他事情。
像自然科学家一样,数学家也来自于不同的家庭。
他们有可能来自名门望族,如黎卡提、达朗贝尔(J.R.D'Alembert,1717-1783)、切比雪夫(P.Chebyshev);也可能来自一般的富裕人家,大多数数学家如此,如笛卡尔、费马(P.Fermat,1601-1665)、彭加勒、康托尔(G.Cantor,1845-1918)、希尔伯特、冯·诺依曼;也可能来自贫穷的家庭,如高斯。
数学家因其思维和秉性的不同,而对数学做出不同的贡献。
有的数学家创造了理论,如李(M.S.Lie,1842-1899)创造出有关微分方程的连续变换群论,李群已成为现代数学的基本概念;黎曼创立了黎曼几何。
有的数学家提出了猜想和问题,如歌德巴赫提出了哥德巴赫猜想,费马提出了费马大定律,希尔伯特提出了著名的23个问题。
有的解决难题,如怀尔斯(A.J.Wiles1953-)证明了费马大定律,陈景润成为证明哥德巴赫猜想的最近的人。
有的数学家关注现实生活中的数学问题,致力于数学的应用,纳什研究博弈论,却因为用于经济研究而获得诺贝尔经济学奖。
数学家也可以分为纯粹数学家和应用数学家。
纯粹数学家以高度的数学抽象能力追求数学的严密和美感,应用数学家则力求脚踏实地地追求数学的应用以及他们与物理、计算机等学科的联系。
像自然科学家队伍一样,数学家队伍也不是千篇一律的模式。
在数学家中,也有各式各样的人。
他们中相当一部分是心无旁鹜的数学痴情者,如哈密尔顿(W.R.Hamilton,1805-1865)整整化了20多年试图充实他的四元数世界。
埃尔德什(P.Erdos,1913-1996)没有妻子没有孩子,没有嗜好,甚至没有家,在60多年流动的数学生涯中,直至古稀之年每天仍工作19小时,共发表了1475篇数学论文。
也有一些数学家精力充沛,涉猎广泛,在从事纯粹的数学研究的间歇或者数学研究之后进行着其他的活动。
他们中有自然科学家特别是理论物理学家,如帕斯卡、牛顿、彭加勒、维纳、诺依曼、图灵;有哲学大师,如笛卡尔、帕斯卡、莱布尼兹、罗素;也有社会活动家,如罗素;有数学研究与教育的管理者,如克莱因(F.Klein,1849-1925)、罗巴切夫斯基(N.J.lobachevsky);有在政府担任行政职务的官员,如傅立叶(J.Fourier,1768-1830)。
数学家的政治立场或者宗教信仰也呈现多元化特征,如柯西(A.Cauchy,1789-1857)是偏执的天主教徒,哈代是古怪的无神论者;高斯非常保守,伽罗华(E.Galois,1811-1832)则是热情的革命家,而年青的德国数学家O·泰西米勒却成了狂热的纳粹分子。
在纳粹德国,像勒纳德把物理学分为雅利安物理学与非雅利安物理学一样,也有人把数学家按照种族和血统分类。
柏林大学教授比伯巴赫把数学家分为J-数学家和S-型数学家。
他认为,J-数学家是德国人,S-型数学家则是法国人和犹太人。
玩弄雕虫小技和概念游戏,是敌视生活毫无生气的S-型数学家本性的暴露,地道的J-数学家有高斯、克莱茵和希尔伯特,J-数学家登峰造极的成就之一,就是希尔伯特关于公理化的工作,遗憾的是那些S-型的犹太抽象思想家已经将它糟踏成一种知识的杂耍[2]。
2、数学上的奖励 作为一名发明家和工业家,诺贝尔决定不设立数学奖,其原因很可能只是由于他对数学或理论科学没有特殊的兴趣,他认为数学不是人类可以直接从中获益的科学。
他在遗嘱中提到,这些奖项要用于奖励那些对人类具有巨大实现利益的“发明或发现”。
也许正是根据这一精神,在历年的诺贝尔物理学奖得主中,从事实验科学的人要比从事理论科学的人多得多。
数学界却不能容忍自己的研究工作没有最高的评价等级。
正是在这种背景下,世界上先后树起了两个国际性的数学大奖:一个是国际数学家联合会主持评定的,在四年召开一次的国际数学家大会上颁发的菲尔兹奖;另一个是由沃尔夫基金会设立的一年一度的沃尔夫数学奖。
这两个数学大奖的权威性、国际性,以及所享有的荣誉都不亚于诺贝尔奖,因此被世人誉为“数学中的诺贝尔奖”。
如何打造史上最强AlphaGo
最强AlphaGo Zero怎样炼成刚刚,Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。
由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,相关的提问和讨论也异常热烈。
什么是AMA?AMA(Ask Me Anything)是由Reddit的特色栏目,你也可以将其理解为在线的“真心话大冒险”。
AMA一般会约定一个时间,并提前若干天在Reddit上收集问题,回答者统一解答。
本次Deepmind AMA的回答人是:David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员。
David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖。
David于2004年在阿尔伯塔大学获得计算机博士学位,2013年加盟DeepMind,是AlphaGo项目的主要技术负责人。
Julian Schrittwieser:Deepmind高级软件工程师。
此前有多位机器学习界的大牛\\\/公司在Reddit Machine Learning版块开设AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我们从今天Deepmind的AMA中选取了一些代表性的问题,整理如下:关于论文与技术细节Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的,自我对局也是不稳定和容易遗忘的,如果没有一个好的基于模仿的初始化状态和历史检查点,二者结合在一起应该是一个灾难...但Zero从零开始,我没有看到论文中有这部分的内容,你们是怎么做到的呢?David Silver:在深层增强学习上,AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。
通过使用AlphaGo搜索,我们可以极大改进策略和自我对局的结果,然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。
比起基于简便的基于梯度的策略改进,这样的做法会更加稳定。
Q:我注意到ELO等级分增长的数据只与到第40天,是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?David Silver:AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走呐。
Q:关于论文的两个问题:Q1:您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。
虽然我不是100%理解围棋的规则,但8个层看起来也多了点吧?Q2:由于整个通道使用自我对局与最近的\\\/最好的模型进行比较,你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?David Silver:说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因:1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据,我们可以更好地猜测对手最近下的位置,这可以作为一种关注机制(注:在围棋中,这叫“敌之要点即我之要点”),而第17层用于标注我们现在究竟是执黑子还是白子,因为要考虑贴目的关系。
Q:有了强大的棋类引擎,我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的,那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。
Julian Schrittwieser:感谢分享,这个主意很棒!我认为在围棋中这完全可以做到,或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。
Q: 既然AlphaGo已经退役了,是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。
还有,Hassabis在乌镇宣称的围棋工具将会什么时候发布?David Silver:现在这个工具正在准备中。
不久后你就能看到新的消息。
Q:AlphaGo开发过程中,在系统架构上遇到的最大障碍是什么?David Silver:我们遇到的一个重大挑战是在和李世石比赛的时候,当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响,也就是说,程序可能会错误理解当前盘面局势,并在错误的方向上持续许多步。
我们尝试了许多方案,包括引入更多的围棋知识或人类元知识来解决这个问题。
但最终我们取得了成功,从AlphaGo本身解决了这个问题,更多地依靠强化学习的力量来获得更高质量的解决方案。
围棋爱好者的问题Q:1846年,在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中,秀策下的第127手让幻庵因硕一时惊急两耳发赤,该手成为扭转败局的“耳赤一手”。
如果是AlphaGo,是否也会下出相同的一首棋?Julian Schrittwieser:我问了樊麾,他的回答是这样的:当时的围棋不贴目,而AlphaGo的对局中,黑棋需贴7.5目。
贴目情况不同造成了古今棋局的差异,如果让AlphaGo穿越到当年下那一手,很有可能下的是不同的另一个地方。
Q:从已发布的AlphaGo相互对局看,执白子的时间更为充裕,因而不少人猜测,7.5目的贴目太高了(注:现代围棋的贴目数也在不断变化,如在30年前,当时通行的是黑子贴白子5.5目)。
如果分析更大的数据集,是否可以对围棋的规则得出一些有趣的结论?(例如,执黑或者执白谁更有优势,贴目应该更高还是更低)Julian Schrittwieser:从我的经验和运行的结果看,7.5目的贴目对双方来说是均势的,黑子的胜率略高一些(55%左右)。
Q:你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,这是否是一种“习惯”,或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?David Silver:在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!即便在训练后期,我们仍然能看到四、六位超高目的开局,但很快就恢复到小目等正常的开局了。
Q:作为AlphaGo的超级粉丝,有一个问题一直在我心中:AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋,我也知道AlphaGo恐怕让不了柯洁两子,但我想你们一定很好奇,你们是否有做内部测试?David Silver:我们没有和人类棋手下让子棋。
当然,我们在测试不同版本的时候下过让子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中,后一个版本均可让三子击败前一个版本。
但是,因为AlphaGo是自我训练的,所以尤其擅长打败自己的较弱的前一版本,因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。
Q:你们有没有想过使用生成对抗网络(GAN)?David Sliver:从某种意义来讲,自我对弈就是对抗的过程。
每一次结果的迭代都是在试图找到之前版本的“反向策略”。
传言终结者Q:我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。
现在它的能力已经超过了人类,是否需要另外的机制来进一步突破?你们有做了什么样的工作?David Silver:实际上,我们从未引导过AlphaGo来解决具体的弱点。
我们始终专注于基础的机器学习算法,让AlphaGo可以学习修复自己的弱点。
当然你不可能达到100%的完美,所以缺点总会存在。
在实践中,我们需要通过正确的方法来确保训练不会落入局部最优的陷阱,但是我们从未使用过人为的推动。
关于DeepMind公司Q:我这里有几个问题:在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?David Silver:在DeepMind工作感觉好极了:)——这不是一个招聘广告,但我感觉每天可以在这里做我喜欢的事实在是太幸运了。
有很多(多到忙不过来!:))很酷的项目去参与。
我们很幸运有许多大牛在AlphaGo工作。
您可以通过查看相应的作者列表来获取更详细的信息。
Q: 你觉得本科生是否可以在人工智能领域取得成功?Julian Schrittwiese:当然。
我本人就只有计算机科学学士学位,这一领域变化迅速,我认为您可以从阅读最新的论文和试验中来进行自学。
另外,去那些做过机器学习项目的公司实习也是很有帮助的。
关于算法的扩展和其他项目Q:Hassabis今年三月份在剑桥的一个演讲中表示,AlphaGo项目未来目标之一是对神经网络进行解释。
我的问题是:ALphaGo在神经网络结构上取得了什么样的进展,或者说,对AlphaGo,神经网络仍然是神秘的黑盒子?David Silver:不仅仅是ALphaGo,可解释性是我们所有项目的一个非常有意思的课题。
Deepmind内部有多个团队从不同方式来探索我们的系统,最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么,效果非常不错!Q: 很高兴看到AlphaGo Zero的好成绩。
我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题,因此我对于在更长的训练过程中的行为尤其感兴趣。
AlphaGo的训练过程中,创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?David Silver:感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。
事实上,它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件),您可以参考我们的方法和强化学习中的讨论,也很高兴看到在其他游戏中使用类似方法。
Q:为什么早期版本的AlphaGo没有尝试自我对弈?或者说,AlphaGo之前也尝试过自我对弈但效果不好?我对这个领域的发展和进步程度感到好奇。
相比起今天,在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?David Silver:创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。
我们最初的尝试包括你能查到的许多类似的算法,是相当不稳定的。
我们做了很多尝试,最终AlphaGo Zero算法是最有效的,而且似乎已经破解了这个特定的问题。
Q:你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如,自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?Julian Schrittwieser:这主要是由于价值\\\/政策网络上的双重改进,包括更好的训练和更好的架构。
具体参见论文图4对不同网络架构的比较。
Q:据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1\\\/10。
你们做了什么样的优化呢?Julian Schrittwieser:这主要是由于价值\\\/政策网络上的双重改进,包括更好的训练和更好的架构。
具体参见论文图4对不同网络架构的比较。
(你确认不是copy上一个问题的答案吗)Q:看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。
展望未来,您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?Julian Schrittwieser:是的,长期记忆可能是一个重要的因子,例如在“星际争霸”游戏中,你可能已经做出了上千个动作,但你还要记住你派出的侦察兵。
我认为现在已经有了令人振奋的组件(神经图灵机!),但是我认为我们在这方面仍有很大的改进空间。
Q:David,我看过你的演讲视频,你提到增强学习可以用于金融交易, 你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?David Silver:已经发表增强学习用于现实世界的财务算法的论文非常少见,但有一些经典论文值得一看,例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。
Q:你们和Facebook几乎同时研究围棋问题,你们能更快获得大师级表现的优势是什么?对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?David_Silver:Facebook更侧重于监督学习,我们选择更多地关注强化学习,因为我们认为AlphaGo最终将超越人类的知识。
我们最近的结果实际上表明,监督学习方法可以让人大吃一惊,但强化学习绝对是远远超出人类水平的关键之处。
最强AlphaGo怎样炼成
最强AlphaGo Zero怎样炼成刚刚,Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。
由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,相关的提问和讨论也异常热烈。
什么是AMA?AMA(Ask Me Anything)是由Reddit的特色栏目,你也可以将其理解为在线的“真心话大冒险”。
AMA一般会约定一个时间,并提前若干天在Reddit上收集问题,回答者统一解答。
本次Deepmind AMA的回答人是:David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员。
David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖。
David于2004年在阿尔伯塔大学获得计算机博士学位,2013年加盟DeepMind,是AlphaGo项目的主要技术负责人。
Julian Schrittwieser:Deepmind高级软件工程师。
此前有多位机器学习界的大牛\\\/公司在Reddit Machine Learning版块开设AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我们从今天Deepmind的AMA中选取了一些代表性的问题,整理如下:关于论文与技术细节Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的,自我对局也是不稳定和容易遗忘的,如果没有一个好的基于模仿的初始化状态和历史检查点,二者结合在一起应该是一个灾难...但Zero从零开始,我没有看到论文中有这部分的内容,你们是怎么做到的呢?David Silver:在深层增强学习上,AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。
通过使用AlphaGo搜索,我们可以极大改进策略和自我对局的结果,然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。
比起基于简便的基于梯度的策略改进,这样的做法会更加稳定。
Q:我注意到ELO等级分增长的数据只与到第40天,是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?David Silver:AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走呐。
Q:关于论文的两个问题:Q1:您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。
虽然我不是100%理解围棋的规则,但8个层看起来也多了点吧?Q2:由于整个通道使用自我对局与最近的\\\/最好的模型进行比较,你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?David Silver:说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因:1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据,我们可以更好地猜测对手最近下的位置,这可以作为一种关注机制(注:在围棋中,这叫“敌之要点即我之要点”),而第17层用于标注我们现在究竟是执黑子还是白子,因为要考虑贴目的关系。
Q:有了强大的棋类引擎,我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的,那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。
Julian Schrittwieser:感谢分享,这个主意很棒!我认为在围棋中这完全可以做到,或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。
Q: 既然AlphaGo已经退役了,是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。
还有,Hassabis在乌镇宣称的围棋工具将会什么时候发布?David Silver:现在这个工具正在准备中。
不久后你就能看到新的消息。
Q:AlphaGo开发过程中,在系统架构上遇到的最大障碍是什么?David Silver:我们遇到的一个重大挑战是在和李世石比赛的时候,当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响,也就是说,程序可能会错误理解当前盘面局势,并在错误的方向上持续许多步。
我们尝试了许多方案,包括引入更多的围棋知识或人类元知识来解决这个问题。
但最终我们取得了成功,从AlphaGo本身解决了这个问题,更多地依靠强化学习的力量来获得更高质量的解决方案。
围棋爱好者的问题Q:1846年,在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中,秀策下的第127手让幻庵因硕一时惊急两耳发赤,该手成为扭转败局的“耳赤一手”。
如果是AlphaGo,是否也会下出相同的一首棋?Julian Schrittwieser:我问了樊麾,他的回答是这样的:当时的围棋不贴目,而AlphaGo的对局中,黑棋需贴7.5目。
贴目情况不同造成了古今棋局的差异,如果让AlphaGo穿越到当年下那一手,很有可能下的是不同的另一个地方。
Q:从已发布的AlphaGo相互对局看,执白子的时间更为充裕,因而不少人猜测,7.5目的贴目太高了(注:现代围棋的贴目数也在不断变化,如在30年前,当时通行的是黑子贴白子5.5目)。
如果分析更大的数据集,是否可以对围棋的规则得出一些有趣的结论?(例如,执黑或者执白谁更有优势,贴目应该更高还是更低)Julian Schrittwieser:从我的经验和运行的结果看,7.5目的贴目对双方来说是均势的,黑子的胜率略高一些(55%左右)。
Q:你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,这是否是一种“习惯”,或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?David Silver:在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!即便在训练后期,我们仍然能看到四、六位超高目的开局,但很快就恢复到小目等正常的开局了。
Q:作为AlphaGo的超级粉丝,有一个问题一直在我心中:AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋,我也知道AlphaGo恐怕让不了柯洁两子,但我想你们一定很好奇,你们是否有做内部测试?David Silver:我们没有和人类棋手下让子棋。
当然,我们在测试不同版本的时候下过让子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中,后一个版本均可让三子击败前一个版本。
但是,因为AlphaGo是自我训练的,所以尤其擅长打败自己的较弱的前一版本,因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。
Q:你们有没有想过使用生成对抗网络(GAN)?David Sliver:从某种意义来讲,自我对弈就是对抗的过程。
每一次结果的迭代都是在试图找到之前版本的“反向策略”。
传言终结者Q:我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。
现在它的能力已经超过了人类,是否需要另外的机制来进一步突破?你们有做了什么样的工作?David Silver:实际上,我们从未引导过AlphaGo来解决具体的弱点。
我们始终专注于基础的机器学习算法,让AlphaGo可以学习修复自己的弱点。
当然你不可能达到100%的完美,所以缺点总会存在。
在实践中,我们需要通过正确的方法来确保训练不会落入局部最优的陷阱,但是我们从未使用过人为的推动。
关于DeepMind公司Q:我这里有几个问题:在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?David Silver:在DeepMind工作感觉好极了:)——这不是一个招聘广告,但我感觉每天可以在这里做我喜欢的事实在是太幸运了。
有很多(多到忙不过来!:))很酷的项目去参与。
我们很幸运有许多大牛在AlphaGo工作。
您可以通过查看相应的作者列表来获取更详细的信息。
Q: 你觉得本科生是否可以在人工智能领域取得成功?Julian Schrittwiese:当然。
我本人就只有计算机科学学士学位,这一领域变化迅速,我认为您可以从阅读最新的论文和试验中来进行自学。
另外,去那些做过机器学习项目的公司实习也是很有帮助的。
关于算法的扩展和其他项目Q:Hassabis今年三月份在剑桥的一个演讲中表示,AlphaGo项目未来目标之一是对神经网络进行解释。
我的问题是:ALphaGo在神经网络结构上取得了什么样的进展,或者说,对AlphaGo,神经网络仍然是神秘的黑盒子?David Silver:不仅仅是ALphaGo,可解释性是我们所有项目的一个非常有意思的课题。
Deepmind内部有多个团队从不同方式来探索我们的系统,最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么,效果非常不错!Q: 很高兴看到AlphaGo Zero的好成绩。
我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题,因此我对于在更长的训练过程中的行为尤其感兴趣。
AlphaGo的训练过程中,创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?David Silver:感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。
事实上,它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件),您可以参考我们的方法和强化学习中的讨论,也很高兴看到在其他游戏中使用类似方法。
Q:为什么早期版本的AlphaGo没有尝试自我对弈?或者说,AlphaGo之前也尝试过自我对弈但效果不好?我对这个领域的发展和进步程度感到好奇。
相比起今天,在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?David Silver:创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。
我们最初的尝试包括你能查到的许多类似的算法,是相当不稳定的。
我们做了很多尝试,最终AlphaGo Zero算法是最有效的,而且似乎已经破解了这个特定的问题。
Q:你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如,自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?Julian Schrittwieser:这主要是由于价值\\\/政策网络上的双重改进,包括更好的训练和更好的架构。
具体参见论文图4对不同网络架构的比较。
Q:据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1\\\/10。
你们做了什么样的优化呢?Julian Schrittwieser:这主要是由于价值\\\/政策网络上的双重改进,包括更好的训练和更好的架构。
具体参见论文图4对不同网络架构的比较。
(你确认不是copy上一个问题的答案吗)Q:看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。
展望未来,您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?Julian Schrittwieser:是的,长期记忆可能是一个重要的因子,例如在“星际争霸”游戏中,你可能已经做出了上千个动作,但你还要记住你派出的侦察兵。
我认为现在已经有了令人振奋的组件(神经图灵机!),但是我认为我们在这方面仍有很大的改进空间。
Q:David,我看过你的演讲视频,你提到增强学习可以用于金融交易, 你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?David Silver:已经发表增强学习用于现实世界的财务算法的论文非常少见,但有一些经典论文值得一看,例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。
Q:你们和Facebook几乎同时研究围棋问题,你们能更快获得大师级表现的优势是什么?对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?David_Silver:Facebook更侧重于监督学习,我们选择更多地关注强化学习,因为我们认为AlphaGo最终将超越人类的知识。
我们最近的结果实际上表明,监督学习方法可以让人大吃一惊,但强化学习绝对是远远超出人类水平的关键之处。