美国军方正积极推进大语言模型(Large Language Model,LLM)的军事化应用,核心战略目标是获取“决策优势”。在现代冲突中,美军期望比对手更快、更准确地处理海量信息、生成预测模型并辅助决策。这种对“机器速度”决策的追求,预示着未来作战将从以人为中心向人工智能辅助甚至人工智能驱动的节奏转变,其中速度成为关键因素。美国国防部(Department of Defense,DoD)将人工智能(Artificial Intelligence,AI)视为在数字化竞争世界中保持军事优势的关键要素,尤其在应对大力投资人工智能的对手时。国防部的人工智能战略强调以合法、负责任和可问责的方式利用人工智能,使其符合国家价值观和战争法。
Scale AI自2016年成立以来,一直致力于构建数据驱动的人工智能基础设施,并迅速将技术优势扩展到美国国防与情报领域。该公司与美国国防数字和人工智能办公室(Chief Digital and Artificial Intelligence Office,CDAO)签署了其他交易协议(Other Transaction Agreement,OTA),为联合部队提供数据策划和标注服务,助力AI原型从实验室迈向前线部署。在安全与可控性方面,Scale AI组建了“安全、评估与对齐实验室”(SEAL),汇聚红队攻防和强化学习人类反馈(Reinforcement Learning from Human Feedback,RLHF)专家,对大型语言模型进行系统级测试和威胁评估,确保模型在极端环境下的稳定性和可控性。
在此背景下,多诺万平台(Donovan)应运而生,成为Scale AI面向政府与军工客户推出的端到端AI代理管理与部署解决方案。Donovan具备大规模文档摄取和实时情报分析能力,可在数分钟内处理超过10万页的命令、态势报告和开源数据,并通过RLHF流水线持续微调模型以满足作战需求。平台内置红队工具和定制化评估基准,确保所部署的代理在复杂战术场景中既能提供准确见解,又能遵循国际人道法和国家情报总监办公室(Office of the Director of National Intelligence,ODNI)的写作规范。Donovan已成为首批能够在分类网络上运行的大型语言模型基础设施之一,支持联合作战计划、后勤保障和兵棋推演等关键用例,大幅缩短了“从数据到行动”的反馈周期。
在Donovan生态内,Defense Llama大语言模型代表了Scale AI与Meta(前Facebook)开源Llama 3模型合作的最新成果。该模型通过Scale的Data Engine进行精细微调,训练数据囊括军事条令、国际人道法和国防部AI伦理原则,使其能够在战术规划、目标分析和态势感知等场景中给出符合专业规范的响应。Defense Llama仅限于在政府专用的、安全受控的系统内部署,且始终保持“人类监督”机制,并可与Donovan平台无缝衔接,能够作为智能代理为指挥官提供多域作战建议和替代行动方案评估。
“雷神之锤”(Thunderforge)是美国国防创新小组(Defense Innovation Unit,DIU)的一项旗舰计划,其目的是将人工智能深度整合到军事作战和战区级规划中,并与先进的建模和仿真工具相结合。该系统的目标是加速决策,使规划人员能够快速综合海量信息,生成多种行动方案,并进行人工智能驱动的兵棋推演,以预测和应对不断演变的威胁。DIU领导层指出,当前的规划方法已过时,无法适应现代战争的激烈敏捷性和现代化设备。“雷神之锤”标志着向人工智能驱动、数据驱动战争的决定性转变。
“雷神之锤”技术解决方案将提供人工智能辅助的规划能力、决策支持工具和自动化工作流程。它利用先进的大型语言模型、人工智能驱动的模拟和交互式基于代理的兵棋推演,以增强美国军方准备和执行作战的能力。该系统最初将部署到美国印太司令部(United States Indo-Pacific Command,INDOPACOM)和美国欧洲司令部(United States European Command,EUCOM),以支持关键的规划活动,包括战役发展、全战区资源分配和战略评估。其跨多个安全领域的整合确保了人工智能驱动的规划能力将安全地嵌入到实际军事行动中。
“雷神之锤”是一项多方合作的努力,涉及Scale AI(提供代理应用、生成式人工智能测试和评估专业知识)、Anduril(提供Lattice建模/仿真软件平台)和微软(提供最先进的大型语言模型技术)。该团队的目标是提供一个统一的规划生态系统,其中人工智能代理可以模拟兵棋推演和规划场景,并完善提议的行动方案。
微软作为“雷神之锤”项目的重要技术伙伴,其提供的大型语言模型技术是构建这一先进规划生态系统的核心组成部分。此外,其他公司如Systematic也在国防人工智能项目中探索利用大语言模型,执行文档摘要、翻译和军事文档解释等任务,并研究“大语言模型作为评判者”(LLM-as-a-judge)的技术,以自动化评估模型表现,确保为国防客户提供高质量的AI产品。
军事大语言模型在决策支持和情报分析中虽展现出明显优势,但其内在缺陷和潜在威胁在实战环境中尤为突出。模型的“幻觉”问题会导致其在关键战术或后勤规划中产生不准确甚至完全错误的输出,若凭此做出作战或资源分配决策,将严重影响部队效能和安全。提示注入攻击能够绕过现有的安全检查,诱使模型暴露机密信息或执行恶意指令,一旦发生机密泄露或错误指令下发,将对军事行动造成直接威胁。此外,用于模型微调的敏感军用数据若管理不当,既可能侵犯第三方知识产权,也会在训练管道中留下安全漏洞,为对手提供反向工程和情报窃取的机会。
更为严重的是,大语言模型的决策过程高度依赖“黑箱”算法,缺乏透明度和可解释性。一旦在行动中出现误判或失误,难以迅速追踪问题根源,也难以界定是算法偏差、数据质量不佳还是人类监督不到位所致,从而使责任归属和问责机制形同虚设。Meta虽对外宣称禁止将Llama用于军事活动,却在内部为国防承包商和情报机构开辟例外,使得合规政策形同摆设,也为其他国家或非国家行为体复制使用模式提供了便利,进一步增加了技术扩散和滥用的风险。综上所述,除非在严格的安全加固、持续的人机协同监督以及透明的审计与问责框架下,否则将大语言模型直接投入战时决策支持,难以在高度敏感的国防场景中保证可靠性与合规性。
美军正加速推进大语言模型(LLM)的军事化应用,核心目标是夺取“决策优势”。LLM凭借其“机器速度”的信息分析能力,大幅缩短“从数据到行动”的反馈周期,使指挥官能迅速掌握战场态势并生成精准预测,从而抢占先机。大语言模型还能与建模仿真技术的深度融合,为作战规划与兵棋推演提供强大支持,实现高效地方案生成与威胁模拟,从而指挥官提供关键参考,显著提升决策制定的效率与速度。
在短期研究与应用中,为应对当前军事AI的固有挑战,美军将着重提升LLM在鲁棒性、安全性与可控性方面的表现。其中包括构建严密的测试验证体系、强化数据治理与网络防护,以及贯彻“有意义的人类主控(Meaningful Human Control, MHC)”原则。这些举措将确保LLM能无缝嵌入现有指挥控制系统,并在关键时刻由人工暂停或纠偏,从而有效抵御“幻觉”误导、提示注入攻击和敏感信息泄露,进而构建高效的人机协同操作流程。
从更长远的视角看,LLM将深度融入陆、海、空及盟军联合作战的全流程。在未来战争中,LLM不仅具备强大的信息分析与规划辅助能力,还有望通过自主学习和推理,实现复杂环境下的自适应决策与资源优化,动态调整战术部署与优化后勤链路,甚至在网络空间中执行高阶威胁识别与响应。这种深度融合将为指挥官提供前所未有的战场全局洞察与未来行动预判能力。然而,这种能力扩展亦伴随深层次挑战,即LLM如何在电磁对抗和网络攻防等严苛环境中持续保持其可靠可控性,以及实现全生命周期的高度透明与责任可溯。(北京蓝德信息科技有限公司)