分类目录归档:格物

【文摘】AlphaGo Zero论文摘要

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域,以超越人类的精通程度学习的算法,“tabula rasa”(译注:一种认知论观念,认为指个体在没有先天精神内容的情况下诞生,所有的知识都来自于后天的经验或感知)。此前,AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练,同时也通过自我对弈进行强化学习。在这里,我们介绍一种仅基于强化学习的算法,不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度,使落子质量更高,自我对弈迭代更强。从“tabula rasa”开始,我们的新系统AlphaGo Zero实现了超人的表现,以100:0的成绩击败了此前发表的AlphaGo。DOI:10.1038/nature24270全新的强化学习:自己成为自己的老师DeepMind 研究人员介绍AlphaGo Zero。视频来源:DeepMind,视频中英文字幕由Nature 上海办公室制作AlphaGo Zero 得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。这种技术比上一版本的 AlphaGo 更强大,因为它不再受限于人类知识的局限。相反,它可以从一张白纸的状态开始,从世界上最强大的围棋玩家——AlphaGo 自身——学习。AlphaGo Zero 在其他方面也与之前的版本有所不同:AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入,而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。它只使用一个神经网络,而不是两个。以前版本的 AlphaGo 使用一个“策略网络”(policy network)来选择下一个落子位置和一个“价值网络”(value network)来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的,这使得它能够更有效地进行训练和评估。AlphaGo Zero 不使用“走子演算”(rollout)——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方将从当前的棋局中获胜。相反,它依赖于高质量的神经网络来评估落子位置。上面的所有这些不同之处都有助于提高系统的性能,使其更加通用。但使得这个系统更加强大和高效的是算法的改变。在进行了3天的自我训练后,AlphaGo Zero 在100局比赛中以100:0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后,这个系统逐渐从零开始学会了下围棋,在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识,开发出非常规的策略和创造性的新下法,这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。尽管目前仍处于早期阶段,但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称:“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在,AlphaGo Zero是我们项目中最强大的版本,它展示了我们在更少的计算能力,而且完全不使用人类数据的情况下可以取得如此大的进展。“最终,我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题,例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展,就有可能推动人类理解,并对我们的生活产生积极影响。”AlphaGo Zero 技术细节拆解:将价值网络和策略网络整合为一个架构,整合蒙特卡洛搜索不断迭代新方法使用了一个深度神经网络 fθ,参数为 θ。这个神经网络将原始棋盘表征 s(棋子位置和历史)作为输入,输出落子概率和一个值 (p, v)= fθ(s)。落子概率向量 p 表示选择下每一步棋(包括不下)的概率。值 v 是一个标量估值,衡量当前棋手在位置 s 获胜的概率。这个神经网络将最初的 AlphaGo(下文中的 AlphaGo Fan 和 AlphaGo Lee,分别指对战樊麾和对战李世石的版本)的策略网络和价值网络整合到一个架构里,含有很多基于卷积神经网络的残差模块,这些残差模块中使用了批正则化(batch normalization)和非线性整流函数(rectifier nonlinearities)。AlphaGo Zero 的神经网络使用自我对弈数据做训练,这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s,神经网络 fθ 都会进行蒙特卡洛树搜索(MCTS)。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些;MCTS 也因此可以被视为一个更加强大的策略提升 operator。系统通过搜索进行自我对弈,也即使用增强的基于 MCTS 的策略选择下哪步棋,然后使用获胜者 z 作为价值样本,这个过程可以被视为一个强有力的策略评估 operator。这一新的强化学习算法的核心思想是,在策略迭代的过程中,反复使用这些搜索 operator:神经网络的参数不断更新,让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代,让搜索更强。下面的图1 展示了自我对弈训练的流程。图1:AlphaGo Zero 自我对弈训练的流程:a. 程序自己和自己下棋,标记为s1, ..., sT。在每个位置st,一个MCTS αθ被执行(见图2),使用最新的神经网络fθ。每个走子选择的依...阅读全文
发表在 人工智能, 数学, 格物, 游戏, 程序开发 | 标签为 , , , , , | 留下评论

【文摘】阿尔法Zero、知识树与生命树

影视ai
很多影视作品都展示了机器人自由意志的觉醒,以及随之产生的伦理难题
阿尔法Zero、知识树与生命树
文:杨鹏启与示
阿尔法Zero震惊世界10月19日,“畅所欲言”群,张树新发出《今日Nature:人工智能从...
阅读全文
发表在 人工智能, 圣经, 格物, 每日精进, 计算机安全 | 标签为 , , , , | 留下评论

【视频】科学进化论与创造论系列

科学进化论与创造论视频jt-shengqi

神 奇 - 介绍 19-1

神 奇 - 雷暴 19-3

神 奇 - 太阳恒星 19-4

神 奇 - 宇宙 19-5

神 奇 - Emc2 19-6

神 奇 - 有智慧的神 19-7

神 奇 - 雪晶体 19-8

神 奇 - DNA 19-9

神 奇 - 种子 19-10

神 奇 - 有花植物 19-11

神 奇 - 海洋生物 19-12

神 奇 - 雀鸟 19-13

神 奇 - 蜂鸟 19-14

神 奇 - 蝴蝶 19-15

神 奇 - 人类 19-16

神 奇 - 公义的神 19-17

神 奇 - 慈爱的神 19-18

神 奇 - 铭谢 (19-19)

神奇的事,环顾身边,比比皆是!来跟我们一同展开这个发现之旅,探索造物者的作为,窥看祂的本性。这个旅程逐一为您送上许多震撼人心的视觉画面,包括宇宙的浩瀚、物质裡的巨大能量、遗传因子的複杂结构、雀鸟的飞行功能设计以及蝴蝶的蜕变等等,让人一览天地间许多的创造例子。《神‧奇》带您遨游一个扣人心弦的奇妙旅程,体验肉眼看得到和看不到的事情,其中最神奇的莫如神救赎的大爱!IMG_9330-1sig阅读全文
发表在 圣经, 格物, 每日精进 | 标签为 , , | 留下评论

【分享】鸟语花香

达尔文的进化论讲“适者生存,优胜劣汰”是解释物种生存的万能语法逻辑加上足够的时间长度,可以解释任何物种的存留但一个非常有趣的问题,确无法用这种逻辑解释那就是当前生物界所表现出来的完全性和完美性...阅读全文
发表在 博客, 圣经, 格物, 正能量, 每日精进 | 标签为 , , | 留下评论

【分享】格物糊涂

科学家通过基因合成移植技术,培植了新的细胞一篇论文摘要We report the design, synthesis, and assembly of the 1.08–mega–base pai...阅读全文
发表在 博客, 圣经, 格物, 正能量, 每日精进 | 标签为 , , , | 留下评论

【文摘】在科学的局限之外 ——​采访张首晟(三)

在科学的局限之外
采访张首晟宁子
张首晟
五、当真理进入了生命
他相信一切自然规律都是上帝规定的。作为一个有信仰的科学工作者,他所提出的科学理论不仅仅要能够解释自然现象,更是要经由对自然现象的解释见证上帝的荣耀和智...
阅读全文
发表在 博客, 圣经, 格物, 每日精进 | 标签为 , , , | 留下评论