新科技 New Tech

能通过机器学习自我优化 DeepMind研发人工智能 Alpha Go让人类备感威胁

19_1引言

世界著名围棋高手–韩国(South Korea)的李世石(Lee Sedol)与谷歌(Google)旗下子公司DeepMind研发的Alpha Go之间的人机大战引发全球高度关注。可以注意到两个点的是:第一,大数据的支撑让Alpha Go能够厘清头绪,形成了对规则的认知。第二,Alpha Go能通过机器学习自我优化。现在就随《大橙报》来了解这个神奇的新科技。

备受瞩目的李世石(Lee Sedol)对阵Alpha Go的围棋大战,将这款由谷歌(Google Inc)旗下位于伦敦(London)的子公司DeepMind研发的系统将近两年逐渐火爆的人工智能(AI)又推上了风口浪尖。

打败人类就必须像人类那样学习和思考,而不是像国际商业机器(IBM)的“深蓝”(DeepBlue)用搜索穷举方式。

Alpha Go系统将最先进的蒙特卡洛树状搜索技术以及两个深度神经网络相结合,用“策略网络”预测下一步棋、将搜索范围缩小至最有可能触发的那些步骤;并且用“价值网络”减少搜索树的深度,每走一步估计一次获胜方,而不是搜索所有的结束棋局的途径–两个神经网络之间通过成千上万的对弈,采用被称为强化学习的试错法逐步进行改善,并最终发现新策略。据说,DeepMind团队给Alpha Go输出海量的职业棋手的对局,其自我演绎的对局高达3000万局。

可以注意到两个点:第一,大数据的支撑让Alpha Go能够厘清头绪,形成了对规则的认知。第二,Alpha Go能通过机器学习自我优化。

Alpha Go的程序原理有二:“深度学习”和“两个大脑”。

深度学习
Alpha Go的主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性的激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。

两个大脑
Alpha Go通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些谷歌图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这一个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。

·第一大脑:落子选择器(Move Picker)
Alpha Go的第一个神经网络大脑,是“监督学习的策略网络(Policy Network)”。观察棋盘布局企图找到最佳的下一步。事实上,它预测每个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

·第二大脑:棋局评估器(Position Evaluator)
Alpha Go的第二个大脑相对落子选择器是回答另一个问题,不是去猜测具体下一步,它预测每一个棋手赢棋的可能。在给定棋子位置情况之下,这“局面评估器”就是“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这一个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,Alpha Go能决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么人工智能就跳过阅读在这一条线上的任何更多落子。