新人工智能系统在模拟空战中击败战术专家

frank

alt text
美国退役空军上校 Gene Lee 在飞行模拟器中与人工智能展开了模拟空战，该人工智能技术的研发团队由工业界、美国空军和辛辛那提大学的代表所组成。

美国退役空军上校及军事专家 Gene Lee 是一位有着大量空战经验的指导员，也是一位专业知识丰富的空战指挥官（Air Battle Manager）。最近他通过一个高仿真空战模拟器对辛辛那提大学博士后开发的人工智能进行了测评。

这个被称作 ALPHA 的人工智能在模拟战斗取得了胜利，据 Lee 说，它是「我迄今为止见到的最具侵略性、反应最快、最灵活而且最可靠的人工智能。」

ALPHA 所用的技术中有一项被称作遗传模糊系统（ genetic-fuzzy system）的重大突破，它的成功是一项重大突破，相关细节可以参看最新一期的 Journal of Defense Management。这个应用是专门为研究空战演习任务中的无人作战飞机（UCAV）的使用而研制的。

这个被称作 ALPHA 的人工智能在模拟战斗取得了胜利，据 Lee 说，它是「我迄今为止见到的最具侵略性、反应最快、最灵活而且最可靠的人工智能。」

用于研发 ALPHA 的工具和 ALPHA 项目本身都是由 Psibernetix 公司开发的，这家公司的创始人是现任公司总裁兼 CEO 的加州大学工程与应用科学院 2015 届博士 Nick Ernest 以及 Psibernetix 公司程序开发负责人 David Carroll；为该公司提供技术支持的有加州大学航空航天教授 Gene Lee、Kelly Cohen 和博士生 Tim Arnett，资金支持来自于美国空军研究实验室（Air Force Research Laboratory）。

高压和快节奏：人工智能陪练员

ALPHA 目前被视为模拟环境中有人和无人作战配合的研究工具。在它最早期的迭代版本中，ALPHA 就经常超过美国空军实验室之前研究所用的电脑程序的基准水平；换句话说，它打败了其它人工智能对手。

事实上，初代 ALPHA 击败了空军实验室其它计算机对手后不久，Lee 就在去年十月通过手动操作迎战了更成熟的 ALPHA。经过数次尝试后，他不仅无法在对抗 ALPHA 上获得一次击杀得分，而且还每次都在持久对峙后被从空中击落。

自从第一次人类 vs. ALPHA 模拟战斗后，它又连续击败了很多专家。而且即使故意降低了（ALPHA 操控的）飞机的速度、转向灵敏度、导弹能力和传感器后，它仍能打赢人类对手。

Lee 从 1980 年代早期以来就经常在模拟器中与人工智能对手进行飞行对战，他在第一次和 ALPHA 对战后说：「我惊讶于它的高度警惕性和反应灵敏性。它似乎知道我的意图，我每次改变飞行轨迹和导弹部署时它都会迅速做出反应。它知道如何打退我的进攻。它能根据需要在防御和进攻模式间快速切换。」

他还补充道：「与大部分人工智能对战时，一个经验丰富的飞行员是可以打败它们的。当然，如果你尝试一些新策略，可能时不时会被人工智能打下来。但到目前为止，一个人工智能对手是无法跟得上类似战斗情景中的真实压力和紧迫节奏的。」

但是现在，却是与上千美国空军飞行员一起训练过的，开过好几架战斗机，并且从美国作战武器学院（U.S. Fighter Weapons School）毕业（相当于拿到了空战战术战略的高级学位）的Lee感受到ALPHA带来的压力，其它飞行员也是如此。

而且，当 Lee 与 ALPHA 进行了长达几小时的模拟真实任务的战斗后，「我回到家感觉精疲力尽，身心疲惫。这也许只是人工智能，但它代表着一种真正的挑战。」

人工智能僚机：一个人工智能战士会怎样演化

Ernest 解释说，「ALPHA 是你在这些模拟环境中会遇到的致命敌人。我们的目标是继续开发 ALPHA，增强和扩展它的性能，并开展与其他受训飞行员的对战试验。仿真度也需要提高，我们会采用更接近真实的空气动力学和传感器模型。ALPHA 完全有能力适应这些环境，我们 Psibernetix 公司着眼于未来的持续发展。」

从长远来看，将人工智能融合进美国空军战斗力中意味着一次革命性的飞跃。人类飞行员进行空中战斗时需要熟练运用航空物理学知识和相关技艺，还需要灵活调遣高速移动战斗机和对敌导弹的直觉。毕竟，如今的战斗飞行员是以超过每小时 1500 英里的速度在4万英尺以上的高空作战，而且彼此距离很近。每一毫秒都很重要，一旦出错代价会很惨重。

由于 ALPHA 的运行速度已经远远超过了其它基于语言的消费软件产品，它现在的目标就是降低出错概率。事实上，ALPHA 可以获取全部传感器数据，把它们组织起来并绘制出一副完整的战斗场景，并在一毫秒内它就能给一个四架战斗机组成的机群做出或更改战斗决策。由于速度非常快，在动态环境中它能充分考虑和协调最佳战术计划和最精准的响应，而且做出决策的速度比人类对手眨眼还快 250 倍。

未来的空战所需的反应速度已经超出人类能力范围之外，因此会需要集成了人工智能的无人战斗机（UCAV）作为僚机与人类飞行员相配合，机载的战斗管理系统将能够胜任情景感知、决策响应、战术选择、武器管理和使用等工作。像 ALPHA 这样的人工智能可以同时规避几十颗敌方导弹、对多个目标实施精准打击、协调队伍成员的行动、还能通过观察记录和学习敌方的战术和战能力。

加州大学的 Cohen 补充道：「ALPHA 会是一个非常易于合作的人工智能伙伴。它始终都能在收到人类战友下达的任务后找到最佳执行方案，并且为其他队员提供适用于当前情况的战术建议。」

成功的程序设计：低计算功率、高性能表现

正常情况下人们很容易会认为，像 ALPHA 这样能处理计算复杂问题，有着极佳学习能力和性能表现的人工智能肯定需要一台超级计算机才能运行。

然而，ALPHA 及其算法实时运行并对不确定的随机情况作出快速响应所需的计算功耗跟一台低预算的个人电脑差不多。

据美国空军研究实验室（AFRL）的首席自动化工程师表示：「 ALPHA 显示出了极大的潜力，在性能表现极佳的同时，它的运算成本也很低，这对于实现无人飞行器队伍的复杂协同操作至关重要。」

三年前 Ernest 还是一个博士生时，就开始与加利福尼亚大学工程研究员 Cohen 合作解决计算功耗的问题。（Ernest 于2011年获得了加州大学航空航天工程与工程力学的学士学位，并于2012年获得同专业硕士学位。）

他们用基于语言的控制（而非基于数字）解决了这个问题，并且采用了一种叫做「 遗传模糊树（GFT: Genetic Fuzzy Tree）」的系统，这是模糊逻辑算法的一个子类。

加州大学的 Cohen 表示: 「遗传模糊系统已经展现出了优越的性能，它能快捷地解决一个有四五个输入的问题。然而，如果把输入增加到 100 个，那地球上没有任何一个系统能处理这样的问题——除非这个难题和所有这些输出都被拆分成一系列子决策。」

这就是 Cohen 和 Ernest 努力多年构建的遗传模糊树（Genetic Fuzzy Tree system）系统的用武之地了。

Ernest 解释道：「用最简单的方式来讲，遗传模糊树更像是人类解决问题的方式。举个橄榄球比赛的例子，接球手要根据掩护他的侧卫的行动来评判如何调整自己的动向。接球手自己不会这么考虑：『在本赛季中，掩护我的那个侧卫进行了三次拦截，拦截后平均返回距离为 12 码，两次被迫漏球，一次 4.35秒 40 码冲撞，73 次抢球，14 次辅助抢球，只有一次传球干扰，五次传球被防，他28岁了，现在距离比赛第三阶段还有 12 分钟，刚好经过了 8 分 25.3 秒的比赛时间。』」

这个接球手并没有在赛前站在争球线上不动，试图回忆那些复杂的战术策略，思考每一条策略的意义，并把它们结合起来作为行动的依据，他只会想到这个侧卫「很不错」。

该侧卫的历史比赛表现并不是唯一的变量。他的相对身高和速度也需要被考虑进来。因此接球手的控制决策可能又快又简洁：「这个侧卫很棒，比我高一点，但我比他快。」

在最基础的层面上，这就是遗传模糊树系统的基础——分布式计算功耗（ distributed computing power）所涉及到的概念，否则，单一操作者制定情景决策需要考虑规则就太多了。

在这种情况下，通过编程把空战调度中这样的复杂问题分解成若干子决策，得到有效解决方案所需的「空间」和负担就大大减少了。决策树的分支或子决策包括了高水平的进攻、规避和防御战术。

这就是「遗传模糊树」系统的三大「树」组件。基于语言的、遗传式的、迭代式的程序开发。

大多数人工智能编程使用的都是基于数字的控制，而且需要非常精确的操作参数。也就是说，这种系统没有给程序开发的情景决策或改进完善留有太多余地。

Ernest 及其团队最终开发出的人工智能算法是基于语言的，带有  if/then 情景模式，而且包含了围绕成百上千个变量的规则。这种基于语言控制和模糊逻辑的系统，尽管涉及的数学没有那么复杂，但也可以进行验证和确认。

这种语言控制的另一个好处是系统可以很轻松地接受专业知识的输入。比如说，Lee 曾经与 Psibernetix 合作为 ALPHA 提供战术和可操作性建议，这些建议都是直接植入的。（这个「植入」过程通过输入模糊逻辑控制器进行，输入的内容包括规定条件（defined terms），如：距离目标的远近；与条件关联的 if/then 规则；以及其它规则和规格。）

最后，ALPHA 程序是迭代式的，它可以从一代进化到下一代，从一个版本升级到另一个版本。实际上，现有的 ALPHA 也只是当前的版本。它的后续版本很可能会有更好的表现。

加州大学的 Cohen 还表示：「在很多方面，这与空战刚打响时一战的情况并没有太多不同。战争刚开始有一大群飞行员，而那些能存活到战争结束的都是一流精英。只有在这种情况下，我们才会去考虑编程。」

为达到它当前的表现水平，ALPHA 的训练在一台价值 500 美元的消费级个人计算机上进行。这个训练过程从大量随机版本的 ALPHA 开始。这些自动产生的版本通过对抗一个手动调节的 ALPHA 版本来证明自己。然后这些成功的代码串会相互「杂交」，产生出更强大或性能更强的版本。也就是说，只有表现最佳的代码才会被用于下一代版本的生成。最终，一个表现最好的版本会脱颖而出，而这就是我们要用的版本。

这就是「遗传模糊树」系统中的「遗传」部分。

Cohen 说道：「所有这些方面都结合到了一起，包括树级联（tree cascade）和基于语言的编程与生成。在对人类推理的模仿方面，我认为这对于无人飞行器的意义就像是 IBM/深蓝 vs. Kasparov 对于国际象棋的意义一样。」

本文选自：Phsy.org，作者：M.b. Reilly；http://synchuman.baijia.baidu.com/article/521182