計算機生成兵力行為建模發展現狀

1 引言

計算機生成兵力(Computer Generated Force,CGF)是由計算機創建并能在基于分布交互仿真技術構建的分布式虛擬戰場環境中,對其全部或部分動作和行為實施自主控制或指導的虛擬作戰兵力對象,是軍事仿真系統中必不可少的元素。CGF在仿真領域的應用有3個方面,裝備技能操作、參謀作業、指揮員決策等訓練仿真;新概念武器運用、作戰理論研究、作戰能力評估、作戰方案優化等分析仿真;武器裝備發展評估、戰技指標論證、新概念武器先期技術演示驗證等測試仿真。CGF的運用可以擴展作戰仿真規模,減少所需人員和模擬器數量,使整個仿真過程易于管理和控制,其行為表示的準確與否是作戰仿真中人類行為模型是否真實、仿真運行結果是否可信的關鍵所在。CGF研究成果可為裝備體系需求論證、作戰試驗、作戰運用等研究提供一種有效的途徑,為陸軍部隊裝備體系實戰化對抗訓練提供有效的技術支撐,為裝備作戰運用理論研究助力,為戰斗力快速生成提供新視角,為提高指揮信息系統“智能輔助”提供借鑒。開發CGF的重點和難點之一在于CGF實體行為的生成,這實際上主要是人工智能技術在CGF中的應用[1]。本文從基于知識、推理、規劃思想,問題求解思想,不確定知識推理思想,學習思想四個方面,總結歸納CGF行為建模方法,對比分析了不同方法的優缺點。按照指揮實體任務規劃、戰術決策行為,作戰實體火力、機動戰場主要行為分類,總結梳理國內外CGF行為建模方法發展現狀。從CGF行為建模需求出發,提出強化學習+知識引導,神經網絡+遺傳算法,知識圖譜+深度學習,規則+強化學習, 4種計算機生成兵力行為建模思想方法。

2 CGF行為建模方法綜述

CGF行為建模相關方法大致可歸納為基于知識、推理、規劃的思想,基于問題求解的思想,基于不確定知識與推理的思想,基于學習的思想四類。

2.1 基于知識、推理、規劃思想

基于知識、推理、規劃是指CGF依靠對知識的內部表示以及對其進行操作實現推理,典型的建模技術有:基于規則的推理技術、基于有限狀態機的推理技術、基于語境的推理技術、基于案例的推理技術、基于本體理論的推理技術。這類方法具有經驗知識表示直接,在有限領域內性能較好等優點,但是只能參照框架和流程按圖索驥,缺乏探索及發現框架之外新知識、新戰法能力。

2.2 基于問題求解思想

基于問題求解思想是指世界的狀態被視為一個整體,對問題求解算法而言,沒有可見的內部結構,主要有啟發式算法和博弈算法兩類。在CGF行為建模中,主要涉及的啟發式方法有進化算法(Evolutionary Algorithms,EA)、群體智能優化算法(Swarm Intelligence Algorithm,SIA)等生物啟發式算法,以及模擬金屬物質熱力學退火過程的模擬退火算法(Simulated Algorithm,SA)等。這類方法可以在在解空間內搜索全局最優解,并且可以對多個目標函數同時進行優化,輸出一組非支配的Pareto解集,有效地求解多目標問題。但是,由于求解的整個群體參與運算,即使是簡單的問題,都需要占用大量的內存和計算資源。對于復雜問題,即使用足夠高速度的計算機進行交互式優化,達到實時性也是不現實的。

博弈論是研究交互式條件下“最優理性決策”的學問,即博弈的每個參與者都希望能以其偏好獲得最大的滿足,博弈論的不同分類如圖1所示。

CGF戰術決策屬于不完全信息動態博弈問題,即對抗雙方行動有先后順序,后行動者可以通過觀察先行動者的行動,獲得先行動者的信息(偏好、策略空間等),獲得信息后,修正自己的判斷(概率分布修正),先行動者知道自己的行動會有信息傳遞給對方,為了不讓對方知道自己的情況,會隱瞞自己的真實行動?;诓┺恼摰淖鲬饹Q策行為建模方法是作戰決策行為研究的一大熱點,涌現出了大量新穎的建模方法[2,3]。機器博弈也稱計算機博弈(Computer Games),即“讓計算機像人一樣思考和決策”[4],博弈論像數學分析一樣是用解析方法求解問題,而機器博弈卻像數值分析一樣是以計算機為手段、用數值方法求解問題。這類方法的優勢在于能夠充分考慮對抗雙方之間的相互關系,使得CGF決策更加貼近現實,但博弈決策并不是總能奏效的,當存在多個均衡解時,博弈決策并不能區分哪一種策略更優,并且當決策空間巨大時,策略搜索的實時性難以達到要求。

圖1博弈論分類?

2.3 基于不確定知識推理思想

CGF 所處戰場環境是部分可觀察或不確定的,CGF的理性決策既依賴于各種目標的相對重要性,也依賴于這些目標將被實現的可能性和程度;CGF在各種規劃的不同結果之間有所偏好等,所以,CGF需要對不確定性處理,而概率理論提供了概括這些不確定性的方法,并通過對CGF信念度處理,實現CGF行為決策,常用方法有:貝葉斯網絡、馬爾科夫模型、效用理論。

2.3.1 貝葉斯網(Bayesian Networks,BN)

BN方法于1986年由Pearl提出,用圖論和統計學理論處理不確定性知識,網絡中的每個節點表示一個隨機變量,具有因果關系的節點用箭頭相連,并用條件概率表示節點間關系,由給定節點的條件概率與先驗概率計算各節點狀態概率,以實現概率的傳播,從而完成推理。BN可用于描述CGF決策過程,使得CGF具備對不確定知識的表示和推理的能力。數學理論基礎穩固,具有較強的概率表達能力,多源信息融合能力,同時,在CGF決策過程中,BN結構決定著態勢特征的提取、領域知識獲取依賴于專家領域知識,這使得模型無法完全準確的描述戰爭系統復雜的演進過程,從而CGF決策效果會有影響,這一不足同樣存在于以上所有傳統建模方法中。

2.3.2 馬爾科夫決策(Markov)模型

馬爾科夫決策過程描述為一個四元組(S,ARP),S為離散狀態集合,即狀態空間;A為離散的備選決策方案集;R(s,a)表示狀態s下采取動作a獲得的累積回報,是狀態和方案到實數集的映射,即:S×AR;P為狀態轉移函數,即PS×APDS),PDS?上的一個概率分布函數。P滿足Markov特性,即對于a1,a2,…,at∈A,有P{St+1|S1,a1,…,St,at}=?P{St+1|St,at},r(s,a)表示狀態s下采取動作a獲得的即時回報。將CGF決策行為看成一個馬爾科夫決策過程,對狀態空間的描述是關鍵。

2.3.3 期望效用理論(Expected Utility Theory,EU)

EU描述了個體在不確定條件下的決策規律,基于EU的決策以以下假設為基礎,決策者可以構建備選方案的完備集,每個備選方案的結果及其概率是已知的,決策目的是使一個給定的效用函數的期望值達到最大,如何合理量化各種決策指標是關鍵。

2.4 基于學習思想

機器學習是通過計算模型和算法從數據中學習規律,并對數據進行預測與決策的一門學問。機器學習在各種需要從復雜數據中挖掘規律的領域中有廣泛應用[4],利用數據預測進行CGF最優行為決策的方法具有重要的研究價值并成為當今的主流[5],是當今人工智能領域最核心的技術之一,算法分類如圖2所示。

圖2 機器學習算法分類圖?

2.4.1 深度學習(Deep Learning,DL)

深度學習是一種對特征多次變換的機器學習模型,由人工神經網絡(Artificial Neural Network,ANN)發展而來,泛指各種基于多層網絡結構的機器學習模型,通過多層模型的逐級特征提取變換,實現復雜函數映射關系[6],本質上是一種基于樣本數據對模式進行分類的統計技術。深度神經網絡通常由一組輸入單元(諸如像素或單詞等),多個隱藏層(包含隱藏單元,層級越多,網絡越深)和一組輸出單元組成,單元之間通過運行連接,學習輸入輸出映射之間的映射。深度神經網絡是否可以學習這種映射取決于許多因素,目前為止深度學習的局限性體現在以下方面[7]:

(1)缺乏學習的數據;

(2)轉移學習能力有限;

(3)沒有自然處理層次結構的方法;

(4)開放式推理不夠成熟;

(5)不夠透明;

(6)需要與先驗知識更好結合;

(7)無法從本質上區分因果關系的相關性;

(8)深度學習假設條件是世界基本穩定,其方式可能會有問題;

(9)深度學習適合作為近似,但答案往往不能完全信任;

(10)很難通過深度學習來進行強大的工程設計。

利用CGF 使用DL做決策需要評估以下問題:DL是否有可能訓練在不同的情況下均表現良好CGF,DL如何影響CGF性能和訓練時間,是否可以通過DL來實現規則或編程很難做到的CGF復雜行為,并且更有效[8]。

2.4.2 強化學習(Reinforcement Learning,RL)

強化學習(Reinforcement Learning)是解決序貫決策問題的方法,通過持續的“交互-試錯”機制與環境不斷交互學得有效策略[9]。強化學習根據是否依賴模型,分為基于模型RL和無模型RL;根據策略更新方法不同,分為基于值函數RL、基于直接策略搜索的RL等;根據回報函數是否已知,分為正向RL和逆向RL,算法框架[9]如圖3所示。RL方法用于CGF戰術決策問題,主要是因為RL來源于心理學中的行為主義,學習過程反映了人腦如何做出決策的反饋系統運行機理,符合指揮員面向實際問題時的經驗性思維與直覺推理的一般決策過程,CGF戰術行為可用MDP描述,看成在連續狀態空間、離散動作空間上的多步強化學習過程,CGF與戰場環境交互,在每個時間步長,CGF通過觀察環境,得到狀態St,而后執行動作at,環境根據at生成下一步長的St+1和rt,強化學習的任務目標就是在給定的基于MDP的CGF戰術決策行為過程中尋求最優策略π*(a|s)=P(at=a|St=s),這里的最優指的是CGF在一個戰術決策軌跡上的累積回報值最大[10]。目前強化學習面臨以下方面挑戰[11]:

(1)許多系統不能直接訓練,需要從系統行為的固定日志中離線學習策略。

(2)在訓練過程中不能有單獨的探索策略,從有限的樣本中學習真實系統;

(3)現實世界中的許多實際問題都具有高維而連續的狀態、動作空間,對傳統RL算法可能會帶來嚴重的問題。

(4)系統運行過程中,安全性非常重要,在探索性學習階段也不能破壞安全限制;

(5)絕大部分要部署強化學習的實際系統都是部分可見的。例如,與用戶交互的推薦系統,無法觀察用戶的心理狀態。通常,這些部分可觀測性表現為非平穩性或隨機性。

(6)強化學習通過優化全局獎勵函數來構建策略學習框架,但大多數系統都有多維度的成本需要最小化,許多情況下,優化目標是模糊的。

(7)人們需要對所擁有和操作的真實系統“意圖”放心,并通過有關系統故障情況的可解釋性,對故障有深入了解。

(8)為了將RL部署到生產系統中,必須在系統的控制頻率下進行實時策略推理;

(9)大多數實際系統在狀態感知、執行器或獎勵反饋方面都存在大量未知延遲。

圖3 強化學習算法框架圖

2.4.3 深度強化學習(Deep Reinforcement Learning,DRL)

深度學習與強化學習的結合最早可追溯于文獻[12]將Auto Encoder應用于強化學習中,解決了路徑規劃尋優的問題。而深度強化學習真正地開端是DeepMind在2013年NIPS會議上發表的DQN算法[13],其直接從像素圖像中學習策略來進行Atari游戲。近年來,深度強化學習的研究成為機器學習的一個重要方向。深度學習的基礎是人工神經網絡,是一種深層的機器學習模型,其深度體現在對特征的多次變換上[14]?;谏疃壬窠浘W絡強大的非線性逼近能力,深度學習與強化學習的結合解決了強化學習面臨的狀態動作空間維度災難問題[13],而且深度學習實現了端到端的學習,能夠直接從原始數據的輸入映射到分類或回歸結果,而不再需要特征工程引入過多的人為因素,這使CGF直接能夠從高維空間感知信息,并根據得到的信息訓練模型、做出決策[15]。

目前,探索與利用的矛盾、獎賞信號稀疏的問題成為了目前制約強化學習性能進一步提高的關鍵因素,必須通過其他技術來補充達到人工智能。綜上所述,四類CGF行為建模方法分析比較如表1所示:

表1 CGF行為建模方法比較

類別機制優點缺點適用

范圍

基于知識、推理、規劃思想采用“IF…THEN”指令形式定義領域知識,并進行知識推理經驗知識表示直接,有限領域內性能較好缺乏探索及發現框架之外新知識能力戰場約束條件構建

基于問題求解思想問題被視為一個整體,沒有可見的內部結構,直接用算法求解問題??赏瑫r對多個目標優化,得到全局最優解依賴隨機性進行求解,不可預測;求解占用大量內存、計算資源CGF戰斗實體火力、機動行為建模

基于不確定知識推理思想通過概率計算實現知識推理數學基礎穩固,實現對不確定性知識的推理BN結構有時依賴于專家領域知識CGF指揮實體態勢識別、戰術決策行為建模

基于學習思想直接通過計算模型和算法從數據中學習規律,并對數據進行預測與決策可從復雜數據中挖掘規律動作空間、狀態空間巨大,推理結果不可解釋CGF指揮實體態勢識別、戰術決策行為建模

基于知識、推理、規劃思想的方法,在CGF行為建模方面缺乏靈活性,但是經驗知識表示直接,有限領域內性能較好,可用于戰場約束條件構建;基于問題求解思想,實時性較差,不適合指揮實體實時決策,但這類方法或能夠充分考慮對抗雙方之間的相互關系,使得CGF決策更加貼近現實,或能同時對多個目標優化,得到全局最優解,故可用于CGF戰斗實體火力、機動行為建模;基于不確定知識推理思想、基于學習思想的方法,對知識的推理能力強,可用于指揮實體智能決策。基于不確定知識推理思想的方法具有可解釋性,數學基礎穩固,但是BN結構有時依賴專家經驗,無法完全準確的描述戰爭系統復雜的演進過程?;趯W習思想的方法,能夠直接從復雜數據中挖掘規律,但是推理結果不可解釋,面臨態動作空間維度災難、探索與利用的矛盾、環境獎賞稀疏、時間信度分配等問題。

3 CGF相關技術發展現狀

近幾年,大部分學者致力于將人工智能的新技術應用于CGF戰術決策行為、物理行為,國外方面,將機器學習算法[16]、部分啟發式算法、馬爾科夫決策模型等人工智能技術應用于CGF行為建模,取得了一些成果。國內方面,近5年學者主要致力于將動態貝葉斯網、啟發式算法、馬爾科夫模型方法[17]應用于CGF行為建模,近2年,有國內學者開始對深度學習、機器學習等機器學習技術在CGF中的應用進行有益探索。

3.1 指揮實體行為

國外方面,2016年,北約工作組等[18,19,20,21]使用機器學習中監督學習方法來識別數據中的決策行為規則和模式,構建了偵察分隊掩護前進搜索的場景,偵察分隊學會了相互掩護射擊前進的策略,驗證了數據驅動決策行為模型具有快捷、真實、客觀的特點。2017年瑞典國防研究局Babak Toghiani-Rizi等[22]根據它們在模擬地面作戰場景中控制計算機生成兵力的能力,比較了DQL、A3C-FF、A3C-LSTM三種深度學習算法,結果表明,至少有一種算法在不需要超參數搜索的情況下解決了所有的任務,深度強化學習技術具有改進當前CGF行為建模的潛力。瑞典烏普薩拉大學[8]研究了利用深度學習對CGF決策行為建模的方法,構建了分隊執行突擊任務的場景,最終分隊突擊隊員學會掩護躍進,安全的通過危險區域,接受深度學習技術訓練的CGF可以通過學習難以通過傳統人工編程的行為來學習如何執行復雜的任務。研究結果顯示,深度學習技術作為CGF行為開發的替代方法具有良好的潛力,并有可能在未來取代現有方法。

國內方面, 2017年,陸軍工程大學陳希亮、張永亮[10]針對陸軍分隊戰術決策問題,在分析深度強化學習技術優勢及其解決分隊戰術智能決策適用性基礎上,建立了基于馬爾可夫決策過程的陸軍分隊戰術智能決策模型,提出了深度學習與逆向強化學習相結合的技術解決方案,并給出了基于 DQN 的陸軍分隊戰術決策技術框架。2018年,陸軍工程大學康凱,李晨溪等[23]提出了一種基于動態貝葉斯網絡的指揮實體動態決策建模方法。通過對動態決策規則的結構化描述,構建陸戰場態勢的動態貝葉斯網絡模型,基于貝葉斯網絡推理模型進行態勢相關估計,實現對陸戰場的實時變化態勢動態分析、理解與判斷。國防科學技術大學許曉、楊梅、李樂、黃科棣等[24,25]為提高CGF對復雜動態環境的適應性,將蒙特卡羅樹搜索應用于CGF指揮員的行為建模,通過狀態和動作抽象來構建行為樹模型處理同步和持續的動作,并采用層次任務網絡規劃來指導搜索,提高搜索效率。

3.2 戰斗實體行為

國外方面,2015年,佛羅里達大學David O. Aihe等[26,27]使用增強學習技術改進基于案例推理的戰術CGF知識,使得CGF行為不再完全依賴于領域專家來提供正確和完整的領域知識。通過車輛機動的實例,與傳統人工編程構建的CGF比較,發現改進后的CGF確實糾正了程序中的錯誤,并獲得了遺漏的知識,使其比原來的CGF表現更好。由美國賴特帕特森空軍基地空軍研究實驗室、法國泰雷茲集團、加拿大國防研究與發展局、瑞典國防研究局、挪威國防研究機構、荷蘭國防部和荷蘭航空航天中心、斯洛伐克武裝部隊研究機構、瑞典國防研究局等機構組成的北約工作組2015-2016年致力于用機器學習技術改進空戰CGF工作。工作組在文獻[5,28]中回顧了CGF中人工智能技術的最新進展,指出機器學習技術有益于行為建模,但這些技術并沒有得到充分重視和利用。文獻[29,30]應用動態腳本,輸入空戰行為規則,使用強化學習技術尋找最優組合生成戰斗機CGF行為,結果表明該方法能夠較好地實現CGF目標學習。文獻[29]將強化學習技術應用于空戰CGF行為建模,并根據應用場景,提出了一種新的基于行為預期結果的獎勵函數。測試表明,該函數的使用顯著提高了CGF在各種空戰場景中的機動、火力技能。文獻[30]將遷移學習技術應用于空戰CGF行為建模,顯著縮短CGF在相似的場景之間的學習時間。文獻[31]研究了深度學習方法在空戰行為訓練中的應用,訓練了一架飛機CGF在空戰中對抗另一架手動操作的對手,結果表明CGF成功地按照目標進行學習,并認為強化學習和深度強化學習在軍事仿真中的應用值得進一步研究。2017年,澳大利亞防務部隊學院[32]建立的可約束的戰場生命行為仿真系統,在使系統中的CGF依據個性化特征進行行為決策的同時,還引入了機器學習技術,將系統的整體目標與CGF行為規則相結合,進行更科學合理的訓練評估。

國內方面,2015年,國防科學技術大學姚劍、黃其旺、王維平等[33,34]提出自適應HBM(Human Behavior Models)生成框架,將領域知識透明、可讀的編碼到模塊中,并通過GA算法進化空戰行為模型及領域知識。2016年,國防科學技術大學張奇、尹全軍等[35,36]提出集成式學習框架以便提升CGF行為建模的便捷性、真實性、自適應能力,近兩年,又在此框架基礎上做了有益探索,如基于擴展學習行為樹CGF行為建模[36],基于改進進化算法的行為樹Agent行為建模[37],結合行為樹和MAXQ學習改進CGFs行為建模[38]??哲姽こ檀髮W左家亮、楊任農等[39]提出基于啟發式強化學習的空戰機動方法,在與外界環境動態交互過程中,采用“試錯”的方式計算相對較優的空戰機動序列,并采用神經網絡方法對強化學習的過程進行學習,積累知識,啟發后續的搜索過程,很大程度上提高了搜索效率,實現空戰過程中決策序列的實時動態迭代計算。

4 研究現狀總結

人工智能特別是深度學習方向研究的進展,徹底改變了傳統人工智能應用程序的性能,領域學者們開始利用基于學習思想的建模技術挖掘CGF在軍事訓練和決策支持應用方面的真正潛力。主要原因在于傳統的CGF行為建模方法一般需要人為的對環境和規則進行建模,在建模的諸多環節中引入了主觀因素,這些因素的準確性和合理性在很大程度上影響著決策的質量。當前,陸軍合成營成為體系對抗下聯合作戰的陸戰基本作戰單元,如何運用陸軍合成營順利完成戰斗任務是目前亟待解決的現實問題。文獻中對智能行為的研究取得了一些進展,然而結合軍事問題研究需求,文獻中還存在以下需要重點關注的問題:

(1)缺少粒度到指揮員的動態任務組織模型研究。文獻中,研究人員注重了個體、群體等行為的建模,忽略了作戰過程中的組織約束,因而使得決策行為不真實。合成營與傳統營級作戰單元的不同在于從在營一級實現了單一兵種到多兵種的高度合成,實現了“小配置、大支援”的力量編成模式,力量廣域分布動態調整的配置方式成為常態,依托信息系統臨機協同和自主協同時機逐漸增多。合成營各業務連指揮員配屬到各任務隊,特別是一些火力隊、保障隊于預定空間疏散隱蔽、相對均衡、不規劃配置,動態調整,多維部署,靈活賦予戰斗任務,需要重新考慮粒度到指揮員的陸軍合成營動態任務組織模型。組織模型的建立是CGF決策行為是否真實的關鍵所在,必須系統地、全面地對貫穿于整個作戰過程的組織行為進行建模,用于描述整個作戰組織的結構及人員的組織約束。

(2)任務規劃行為模型研究較少,目前使用的CGF絕大多數都沒有任務規劃能力。按照合成營作戰流程,將任務規劃決策理解為營一級接受任務后,進行態勢評估、進一步戰斗部署,是指揮員對作戰力量的任務區分、兵力編組和配置作出的安排,合理、巧妙的作戰部署對于任務的完成起著決定性作用。在體系仿真環境中,CGF主要扮演敵軍、友軍、我軍三種角色,并且通過元素間的相互配合,共同達到試驗、訓練、論證等軍事問題研究的目的。CGF角色的不同,其作戰思想、作戰原則、作戰條令就會不同,進而任務規劃決策也會差別很大。良好的任務規劃決策模型是對軍事問題研究開展體系仿真、研究敵方作戰行動的第一步,遺憾的是,目前使用的CGF絕大多數都沒有任務規劃能力。

(3)戰術決策行為模型對決策過程和問題復雜性作了許多不切實際的假設,使得動作空間,狀態空間有限,作戰場景、規則及其簡單。在陸軍分隊戰場環境中,場景更加真實,影響作戰的因素繁多,因素之間的影響交織,例如,合成營摩步連任務是協同坦克作戰,快速機動步兵分隊,消滅敵方輕型裝甲車輛、步兵反坦克火力點、有生力量和低空飛行目標。裝有車載導彈的摩步連,還具有與敵坦克作戰的能力。所以,利用摩步連的高機動性能,提升步兵敵近距離交戰的能力,將兵力輸送到前方,為后方兵力提供偵察視野,或攜帶火箭筒的士兵可以在前方下車,對敵方車輛隱蔽打擊,但是,由于裝甲輸送車的防護能力弱,近距離火力打擊能力弱,所以,前方的摩步連容易遭到敵方火力摧毀,造成車毀人亡的損失。攜帶車載導彈的摩步連,具有較強的遠程打擊能力,可將車輛布置在坦克后方有利地形上發揚遠程打擊能力,這同時與輸送兵力的任務構成了矛盾體。加上合成營融合了戰斗、支援、保障分隊,被賦予多種戰斗行動,考慮的因素非常之多,動作空間,狀態空間,戰場規則的維度爆炸使得戰術決策算法在科學性、合理性、實時性面前黯然失色。

(4)機動、火力行為大部分集中在空戰CGF研究,陸戰CGF研究較少。地面是陸軍戰術分隊的主戰場,地形因素扮演著重要角色,需要重點考慮。例如,地形起伏所造成的坡度、比高、遮蔽程度對作戰單元的機動、偵察、射擊都可能造成影響。例如,密林、疏林、無植被地形對在其中行動的部隊的隱蔽程度以及雙方偵察效果會產生影響,密林還會對機動、射擊行為產生影響;沖溝、彈坑等變形地對作戰單元機動、射擊、偵察造成影響。另外,天候氣象是對戰斗行動和武器裝備使用效果產生重大影響的自然因素,需考慮晝夜、陰晴雨雪、風力、風向等。戰爭的復雜性、不確定性、涌現性在機動、火力決策層面體現的淋漓盡致。CGF一個重要的作用就是突破規則、專家系統的束縛,建立具有高度自治性的決策行為,分隊在仿真系統模擬的真實地形中上百次的推演,將戰爭的復雜性盡可能的分析清楚,不確定性降到最低,并通過積累經驗,有效的協同,涌現出更強的體系作戰能力。

(5)LVC仿真環境中需要模擬人類真實行為水平的CGF,目前使用的CGF與人類真實水平差別很大。“L”指實兵操作實裝,“V”指實兵操作模擬器裝備,“C”指計算機生成兵力,文獻均是在構造仿真中研究CGF。在LVC環境中, CGF與操作模擬器、實裝的人員同享虛擬戰場環境,共用墻上時鐘,CGF決策行為水平不真實,會使戰場環境缺乏真實感,訓練分隊缺少沉浸感。目前,作戰分隊在與虛擬兵力進行對抗訓練過程中,CGF決策行為遠遠高于或低于人類真實水平,導致訓練、試驗效果不理想,嚴重影響戰斗力生成。模擬人類真實訓練水平的CGF有以下幾層含義:一是從指揮人員到作戰單元,會有訓練等級的不同,訓練等級較高的人員往往可以準確的捕捉戰場態勢,抓住戰機,科學決策,而訓練等級低的人員往往對戰場態勢不敏感,與戰機失之交臂或決策失誤。二是真實作戰過程中,作戰行為會有延遲,訓練等級高的人員會迅速捕捉戰機,反應速度、操作速度較快,先敵開火,首發命中,而訓練等級低的人員則相對遲緩,被動挨打。以上兩點是文獻中沒有做過研究的,另外,目前的 CGF決策模型還存在以下不足:一是決策過程過于刻板,缺乏靈活性和適應性;二是現有的決策模型過于規范,難以包括決策者個人因素對決策結果的影響,這些因素包括面臨的壓力、身體疲勞程度、經驗和對待風險的態度;三是沒有考慮決策者的知識局限性、判斷問題時出現的偏見和失誤。

5 結束語

人工智能主要有三大學派,分別是符號主義(Symbolicism)學派、連接主義(Connectionism)學派、行為主義(Actionism)學派,三大學派的相互融合是人工智能技術在CGF決策建模領域發展的重要方向,為提高CGF行為自治性,本文在最后,針對目前陸軍合成營軍事問題研究需求,提出4中CGF行為建模方法。

(1)強化學習+知識引導思想

強化學習中,狀態和動作維度過高,使得CGF狀態-動作空間巨大,無法遍歷所有情況以及學到合理策略;在學習過程中,CGF一方面需要利用已有的經驗選擇獲益最大的動作,另一方面擴大搜索范圍,探索未知空間,尋找更優動作。環境的反饋信號具有延遲性、稀疏性,即CGF在執行多步動作之后才會獲得獎賞,中間動作都沒有收到反饋信號。深度學習與強化學習的結合解決了強化學習面臨的狀態動作空間維度災難問題,探索與利用的矛盾、獎賞信號稀疏的問題是目前制約強化學習性能進一步提高的關鍵因素。知識是人類認識世界的成果與總結,在強化學習中引入知識,不僅可以提高深度強化學習的收斂速度以及CGF的探索能力,還能解決獎賞稀疏性問題。因此,將人類的知識引入至深度強化學習是解決問題的一個重要方向。將知識引入強化學習的方法有很多,例如專家在線指導、回報函數設計、啟發式探索策略、模仿學習、逆向強化學習等[9]。

(2)基于神經網絡+遺傳算法思想

神經網絡以其自身的大規模并行處理、分布式存儲和自適應學習等特點,已被廣泛地應用于各領域,但面對較復雜的非線性系統問題時,由于神經網絡設置的初始權值依賴設計者的經驗和樣本空間的反復試驗,容易產生收斂速度慢、網絡不穩定以及陷入局部最優等一系列問題。遺傳算法搜索具有全局性質,并且不要求目標函數具有連續性,因此,容易得到最優解或性能更好的次優解,用遺傳算法優化神經網絡理論上可以對任意非線性系統進行映射,并且得到全局最優的效果,從而形成一種更加有效的非線性反演方法。

(3)基于知識圖譜+深度學習思想

知識圖譜成是當前人工智能時代最為主要的知識表示形式,最大的優點是可以使得CGF的決策行為具有可解釋性,能否利用知識圖譜中的知識指導深度神經網絡的學習從而提升模型的性能,成為當前研究的重要問題之一。基于知識圖譜推理可分為基于描述邏輯的推理、基于圖結構和統計規則挖掘的推理、基于知識圖譜表示學習的推理、基于概率邏輯推理。將知識圖譜向量化表示作為神經網絡的輸入,即將知識型智能體與學習型智能體融合的思路發揮知識型可信、可控、能快速吸收人類經驗,又發揮學習型智能體探索空間大、發現新知識、新戰法的優勢?;蛘邔⒅R圖譜中的知識表達為深度學習的約束,對知識型智能體從知識表示與推理上進行完善,結合知識圖譜、向量化表示等新技術,使知識的表示更精準、通用性更強。

(4)基于規則+強化學習思想

知識是人類認識世界的成果與總結,但在構建智能系統過程中,領域專家有時會提供不正確和/或不完整的知識;有時專家闡述正確的知識,卻被知識工程師遺漏;其他情況下,領域的發展可能導致系統中知識過時。使用強化學習的方法,在作戰仿真中,通過CGF迭代訓練改進有缺陷的戰術知識來糾正這些錯誤,并填補基于規則的CGF知識的空白,從而對人類的知識進行增加、修改。

前兩種方法能夠直接從復雜數據中挖掘規律,但是推理結果不可解釋,基于強化學習+知識引導行為建模,可以在強化學習方法的基礎上,加速CGF從與環境交互中學得策略的過程,可用于模擬戰爭的不確定性,涌現性等特征,從而訓練指揮人員指揮決策,探索作戰概念下戰法創新;基于神經網絡+遺傳算法行為建模,能夠彌補神經網絡的不足,同時發揮遺傳算法的優點,通過優化網絡權值、網絡結構、學習規則得到復雜非線性系統滿意解,可用于CGF戰斗實體火力、機動行為建模,求解機動最優路徑、目標火力分配等問題。可解釋性在某些軍事領域是必不可少的,后兩種CGF行為建模方法具有可解釋性,但知識表達能力需要增強,應用于知識圖譜的深度學習方法可分為三類:圖神經網絡和圖卷積網絡在內的半監督方法,圖自編碼器在內的非監督方法,圖遞歸神經網絡和圖增強學習在內的最新方法,基于知識圖譜+深度學習的行為建模,在可解釋知識圖譜的基礎上,加入深度學習方法,增強CGF推理能力,可用于作戰理論研究、作戰能力評估、作戰方案優化等分析仿真;基于規則+強化學習的行為建模,以CGF行為規則為輸入,使用強化學習技術尋找最優組合生成CGF行為,可用于CGF戰斗實體戰術動作性能改進,較好地實現CGF目標學習。任何一種單獨應用在CGF中的方法均存在缺點,以上方法均有優缺點,以及各自適用的最佳應用場景,將兩種或兩種以上的方法結合起來,針對CGF決策問題,在決策過程中繼承各方法的優點,揚長避短,是CGF決策建模的發展趨勢。

參考文獻

本文來源于中國知網免費入口 http://www.zhimeng.org

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,363評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,497評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,305評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,962評論 1 311
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,727評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,193評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,257評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,411評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,945評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,777評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,978評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,519評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,216評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,657評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,960評論 2 373

推薦閱讀更多精彩內容