“数”拓新土道不远人——围棋人机大战的意义(李喆) 震惊世界的人机大战
一九九六年二月,计算机国际象棋软件“深蓝”挑战棋王卡斯帕罗夫,以二比四落败。 一九九七年五月,“深蓝”卷土重来,以三点五比二点五战胜卡斯帕罗夫。此后,国际象棋软件不断变强,成为人类棋手学习的工具。 中国象棋、国际跳棋、五子棋、日本将棋……计算机在这些棋类项目迅速突破,很长一段时间里,围棋成了最后的堡垒。
二〇一五年十一月,北京举行了一次世界计算机围棋锦标赛,夺冠的韩国软件挑战中国职业棋手连笑,在受让四子、五子的条件下仍然落败,只在受让六子的条件下取得了胜利。这样巨大的差距使人们认为,计算机在围棋竞技上击败人类棋手,仍然相当遥远。
“阿尔法围棋”(AlphaGo)的出现颠覆了这一判断。二〇一六年一月,谷歌旗下“深度思维”(DeepMind)团队在英国《自然》杂志上发表文章,公布了“阿尔法围棋”在去年十月以五比零击败欧洲围棋冠军樊麾的棋谱,并确认将挑战韩国职业棋手李世石九段。消息一出,举世关注。李世石九段是近十几年世界围棋竞技赛场成绩最优者,获得过十四次世界冠军。人机对弈之前,棋界大多数人认为李
世石必胜无疑,科技界则大约一半人认为李世石会赢。
今年三月九日至十五日,围棋人机大战吸引了全世界的目光。结果出乎多数人预料,“阿尔法围棋”以四比一的比分战胜了李世石。
袖袖阀管震惊、兴奋、不解、怀疑……“阿尔法围棋”是怎么赢的?
“阿尔法围棋”的“直觉”与“大局观”
围棋是一个封闭的复杂空间,其复杂程度是棋类之最,人和计算机都难以通过暴力计算达到穷尽。“阿尔法围棋”取得突破的核心在于深度学习方法,这一方法也是目前人工智能领域最热门的方向。它构建了两套神经网络,对人类大量的棋谱进行学习,在此基础上进行“左右互博”,即自对弈学习。深度学习的一大特点是,它不依赖于任何对象的具体知识,只需通过大量图像和结果的比对就能完成学习。深度学习的方法在二〇〇六年就已经出现,但在近年大数据的背景下才展现出惊人的威力。 “阿尔法围棋”通过深度学习,在形式上达到了拟人的效果。最显著的特点是类似人的“直觉”。棋手面对一个局面,通常会有所谓的“第一感”,这是棋手的直觉。直觉起到了非常关键的剪枝作用,把棋盘上众多的点都直接排除在外,只用考虑直觉留下的一些选点,对它们进行深入的计算和比较。“阿尔法围棋”通过深度学习的训练获得了类似的“直觉”,大幅缩小选点范围,同样起到了剪枝的作用。
对一步棋做出决策,人和“阿尔法围棋”同样是使用了剪枝计算这样的形式。但是,在具体剪枝和计算的方法上,人与“阿尔法围棋”又非常不同。具体到每一手棋,人的直觉来自对类似局面的印象和知识。现代竞技围棋所强调的“熟练度”,在很大程度上因为熟练程度与印象的准确性有很强的关联。知识则主要是如“定式”、“棋形”、“套路”等人类经验的抽象。“阿尔法围棋”的“直觉”是由神经网络给出的选点,其本质是大数据和图像。
剪枝之后,还需要对这些选点进行计算和决策。棋手的决策由多环节构成,主要部分是概念的抽象和逻辑演绎,有时在局部近似地使用穷举,有时辅以综合了经验和数学的全局判断,最终做出选点决策。“阿尔法围棋”的搜索计算使用了蒙特卡洛方法,对全局进行随机模拟,最后与神经网络结合,给出选点的胜率预估。
“阿尔法围棋”基于全局胜率的算法导致了一个结果,即它的“大局观”强于“局部计算”,这是很多人没有想到的。计算机确实应该强于计算,但对于“阿尔法围棋”来说本来就没有“局部”的概念。这是它的弱点,也是长处。蒙特卡洛的随机性使得“阿尔法围棋”不追求最优,最优的判定依赖于逻辑,“阿尔法围棋”的决策则依赖概率,概率的准确性不如逻辑。因此我们常常会看到“阿尔法围棋”下出一些急于“定型”甚至稍亏的棋,这是由于它认为对方虽然大概率会正确应对,但每步棋都有犯错的概率。“定型”的下法用稍亏换取这个概率,对于它的胜率而言是有利的。当然,从逻辑的角度,这类定型对方犯错的概率可以忽略不计,因此棋手通常会选择“保留变化”。
棋手常常无法对全局有十分清晰的把握,因此希望在局部通过计算和逻辑到最优下法,对全局的判断也常常是根据局部优劣的叠加。“阿尔法围棋”“不拘小节”,却总是对全局有更为清晰的认识。这让我们反思,对局部最优的追求是否遮蔽了我们对全局的把握?
遗落的种子阅读答案大局观,整体性,“阿尔法围棋”给人类上了一课——虽然它“自己”并不知道。
“阿尔法围棋”的“创造力”分析
春信香深雪,冰肌瘦骨绝。
梅花不可知,何处东风约。ISO 14644
这是一首咏梅绝句,作者名叫“薇薇”。
薇薇是个人工智能。
三月十日下午,“阿尔法围棋”对阵李世石第二局,落下第三十七手。这是围棋中少见的惊艳一手,吴清源大师的风采跃然盘上。
传播与文化产业“阿尔法围棋”是个人工智能。
读者若以为薇薇是一女子,或许会由此诗而产生与作者的情感共通。那么,诗中传递的情感与美,究竟是作者所赋予,还是读者所赋予?“阿尔法围棋”的“创造性”着法,究竟意味着什么?
机器本身没有情感,但当我们把机器的作品误认为人的作品时,便很可能从作品里体会到作者的“情感”。这是艺术学里一个值得探讨的重要问题。克莱夫·贝尔将艺术的本质属性定义为“有意味的形式”,那么,机器是否也能“创造”出这种“有意味的形式”?
在这次人机对弈之前,我们认为围棋软件没有创造力,它只是会单纯地模仿人类棋谱而已。但在这五局棋中,我们看到“阿尔法围棋”下出了很多超出定式范围的、棋谱中没有的精彩招法。其“创新频率”远高于任何一名职业棋手。
这是一件值得深思的事情:“阿尔法围棋”到底有没有创造力?
如果“阿尔法围棋”这五盘棋是一个人类棋手下出来的,我们不仅会赞叹他的实力,还会评价他“极富创造力”。围棋盘上的“创造力”,正是体现在超出寻常经验的有效选点和构思。这样的创新,是许多追求棋道的棋士穷其一生去追寻的东西,它标志着对固有思维的突破、对平庸的超越,以及对真理的趋近。
“阿尔法围棋”本质上是一个工具。笼统来看,“阿尔法围棋”与人对弈,是它接收一个数据,然后输出一
www.wzyy
个数据的过程。深度学习和蒙特卡洛算法,使接收和输出的数据变得更强,更接近正确的围棋下法,但并未改变它的本质。在哲学的意义上,“阿尔法围棋”不是一个主体。它没有自我意识,没有自由意志,没有创造和争夺的欲望。它下出的在我们看来很有“创造力”的着法,只是它一局棋中输出的一百多次数据中平凡的几次而已。它并不知道自己在下棋——甚至它也没有“自己”的概念。
虽然“阿尔法围棋”所有的“创造性”招法都只是工具对于数据信息处理之后的反馈,但对于我们人类,这些招法却有巨大的价值。价值的根源在于,“阿尔法围棋”用数据的方式给出的选点,人类可以用道理的方式来接收。这导向了两方面的价值:其一是围棋技术的提升。这些新招拓宽了棋手的视野,使人类棋手在围棋的天地中有了一个很好的参照物,从而能够离围棋真理更近一点点;其二是思维方式的提升,随着对这些新招的逐渐理解、对围棋真理的不断趋近,我们的思维也能够得到提升。
一首诗,在它呈现给读者的时候,便不再只属于作者了。
工具的进化与反思
电影《2001太空漫游》的开头,一个猿人从动物尸骨中拿起了一根骨头。继而,他所在的族开始使用骨头捕猎,并击退了前来竞争水源的同类。导演库布里克用这样一个事件来描绘“工具”的出现。如果真的存在这个事件,那么它很可能会是人类历史上最重要的时刻之一。一九六八年上映的这部电影里,骨头的意象穿越时空,变成了太空飞船。飞船执行任务的过程中,操作飞船的计算机接收到两个
矛盾的命令,导致它选择杀死飞船上的所有人,由“自己”去执行任务,这一事件则引发了一系列人类不能理解的类似进化的变化。一个充满寓意的黑方碑贯穿了整个影片。
人工智能,在迄今为止的工具进化史中,它的出现很晚。越晚出现的工具,力量通常会越强,人们对它的迷恋和恐惧也会越大。二〇一六年,人工智能的进度虽然还没有如科幻小说和电影中设想的那样对人类造成威胁,但在围棋上完成了壮举。
从衣食住行到人际交往,现代人的生活中充满了各种工具。人工智能,或许是人类创造的工具中最独特的一种。它近似地拥有了人类的一些能力,甚至在很多方面可以比人类做得更好。随着深度学习引发的这一波热潮,人工智能在医疗等领域中的广泛应用可以预见。如之前的很多工具发明一样,这些人工智能的应用会改善我们的生活品质,将人们从一些繁琐的劳动中解放出来。与传统工具不同的是,人工智能有很大的发展空间,这也使一些人产生了担忧。
科幻小说和电影中,常常描绘人工智能反制人类的情境。一旦计算机有了情感好恶,能够自主选择行为,那么它不断强大的力量既可以保护人类,也可以毁灭人类。当然,这种情境的发生需要一个预设条件:计算机能够产生自我意识和自由意志。在实现这个条件之前,人工智能不是主体,只是工具。
自我意识与自由意志,关于它们的来源,人类自身也知之甚少。有一种还原论的倾向,认为自我意识与自由意志都可以分解为低级的元素,最终被数学和物理解决,但显然目前这只是一个猜想或主张。
而哲学上对它们的讨论也是众说纷纭,其中一个有代表性的观点来自康德,他把自由意志看作一个对人而言必要的悬设。
我们不知道如何能够赋予他物以自我意识和自由意志。斯皮尔伯格的电影《人工智能》里,科学家给一个机器人输入了情感,使他走向了寻自我和人性的道路。这个输入究竟是否可能实现?以我们目前的知识体系来看,是相当可疑的——单是数据的叠加和算法的改进,不足以使工具成为主体。
但是,对人工智能的担忧仍然并非完全没有道理。“机器人不得伤害人类,或坐视人类受到伤害”,这是阿西莫夫著名的机器人第一定律。这一定律的可靠性受到他自己小说的攻击,其中典型的案例是:“机器人认为将人类软禁起来才能够防止他们互相伤害。”人工智能对命令的多元理解可能会导致失控,这是比人工智能产生意识更值得担忧的事情。
另一个更大的危险则在于,人类对人工智能的恶性使用。作为工具的计算机本身并无善恶,但人心却有善恶。人工智能的发展将为人类社会带来很多效益,但也增加了人类自我毁灭的能力和概率。此外,随着计算机能力的增强和广泛应用,与人工智能相关的伦理建设将会成为非常重要并且相当困难的课题。但是,现阶段的人工智能,仍然只是工具。“阿尔法围棋”的出现并未对这一结论产生任何影响,也没有增加计算机产生自我意识的可能性。
与其他工具不同,人工智能在工具效用之外,还有帮助人类进行反思的作用。当我们的许多能力和劳
烫吸动被人工智能取代,作为人的我们,其本质究竟是什么?应该追求的又是什么?随着人工智能的不断发展,这些反思性问题的重要性将会呈现给大众,而在人工智能与人类的比较之中,这些反思的推进会变得更为容易。
“阿尔法围棋”的出现,也对围棋指向了这样的反思性问题。
道理的普遍性——围棋文化的根基
围棋的竞技性有其明显的限制。相比于其他体育项目,它的观赏门槛太高。这使得它的竞技价值极大地依赖于竞技者身份。从早期的门派对抗、地域对抗,到现代的国别对抗,再到今天的人机对抗,每一次围棋竞技的热点都依赖于对局者的身份,这是它发展的瓶颈。人机对抗的热点过后,围棋需要到竞技之外更坚实的价值落脚点——围棋文化。
围棋之所以能够流传如此之久,正是因为它在不同的时代背景之下能够衍生出不同的价值。每一次时代精神的革新变化都不会将它淘汰,反而会催发它新的意涵。人们用某一种知识体系去认识它、使用它,它就会展现出与之相适应的价值。子曰“君子不器”,庄子谈“无用之用”,这些品质都在围棋中得到呈现。围棋文化的深刻意涵也隐藏在这种独特的品质之中。“阿尔法围棋”作为工具的一个重要意义,是帮助我们反思围棋。这种反思在某种程度上帮我们打通了围棋本质与文化之间的通路。
围棋的核心规则极为简易:“交替落子,气尽棋亡,禁止循环,子多为胜。”简易的规则,却衍生出近乎无穷的变化。二〇一六年一月,普林斯顿的研究人员算出十九路围棋的精确合法位置数在10171这一数量级。这个数只是静态盘面的总和,尚未包含不同的动态次序。对于人类而言,这一数量级近乎无穷。即使是计算机,也离穷举有非常遥远的距离。但是,围棋毕竟是一个封闭的空间,它的变化数在本质上仍然是有限的。
围棋的变化数与棋盘的大小直接相关。在很小的棋盘上,如三路围棋,人类甚至可以穷尽其变。再大一些,人类虽不能穷尽其变,但可以算出其最优解。我在去年做过一个七路围棋的最优解研究,凭人力计算其中的有效变化,得出了其最优解的理论值,即双方最优下法的盘面差距(亦即正确贴子数)。最优解下法是一个集合,包含了很多不同的变化,这些变化都导向了最终双方完全平等的和棋,这样的殊途同归是围棋中绝妙的平衡。