廣義的決策策略選擇則包含判斷與決策兩個部分。狹義的決策策略選擇是一個動態(tài)過程,是個體運用感知覺、記憶、思維等認知能力,對情境做出選擇,確定策略的過程。基于馬爾科夫決策策略選擇方法,解決具有復雜目標間關聯的多階段目標選擇問題。使用與或樹描述目標體系各層狀態(tài)間的影響關聯,并以目標體系整體失效為求解目的,建立了基于離散時間 MDP 的多階段打擊目標選擇模型。

中文名

決策策略選擇

外文名

Decision strategy selection

用途

選擇合適策略

所屬類別

科學方法

涉及領域

各行各業(yè)

拼音

jué cè cè lüè xuǎn zé

基本概述

近年來,隨著互聯網上Web 服務的大量出現,提供相同功能的Web 服務也越來越多,但這些Web 服務在非功能屬性上仍然存在差別。如何在這些服務中進行合理的選擇,對成功地構建面向服務應用(service oriented applications)具有非常重要的意義,是一個極具挑戰(zhàn)性的問題。

目前,針對Web 服務選擇的研究,大都是基于QoS (quality of service)模型的。QoS 的性能指標包括執(zhí)行時間、費用、服務可靠性、有效性、用戶滿意度等,此外,還可能有一些特定領域的其他屬性。一個用戶可決定挑選最便宜的或最快的服務,或者是多QoS 目標的折中。文獻[4]根據工作流任務的結構特點對其進行分區(qū),按照任務量和通信量將總工作流截止日期和總工作流花費分為每個任務分區(qū)上的子截止日期和子花費,在考慮用戶多個QoS 要求及工作流任務間通信時間的基礎上,提出基于信任與花費的綜合效益函數,給出信任與花費權值的確定方法以及一個以綜合效益最優(yōu)為目標的調度算法—TCD,算法通過追求局部最優(yōu)達到全局多目標優(yōu)化調度。文獻[6]提出了一個在滿足截止日期的約束下追求最小花費或在滿足花費的約束下追求最短執(zhí)行時間的單目標優(yōu)化調度算法。還有的方法,生硬地為QoS 的各個性能指標賦予相應的權重,形成一個單目標函數來求解。還有的方法以用戶的歷史經驗為基礎計算用戶之間的相似程度,根據其他用戶的經驗對某個用戶的決策做出指導。

這些方法雖然都考慮到了用戶多QoS 要求,但沒有考慮到不同用戶的不同側重點,如:有的用戶寧愿花費更多的錢去享受更快的Web 服務;有的用戶不在乎服務的快慢,但希望花費少些;有的用戶更加注重該服務的口碑(用戶滿意度)等。

基于貝葉斯決策的多QoS 目標的Web 服務選擇策略是在已有的具有相同功能的服務集的基礎上,選擇最可能讓自己滿意的一個Web 服務來執(zhí)行。該策略將機器學習領域的經典方法:貝葉斯決策理論,運用到Web 服務的選擇中來,可以充分利用用戶自己的經驗庫(即自己曾經選擇的Web 服務的QoS 信息及是否令自己滿意),學習自己以往的經驗,做出更可能讓用戶滿意的選擇。

選擇策略

不同的用戶眼中的最優(yōu)Web 服務是不同的,有的用戶更在乎執(zhí)行時間,有的用戶更在乎費用,有的用戶更在乎服務的用戶滿意度。但對于同一個用戶來說,它的興趣一定遵循同一概率分布的。用戶曾經選擇的 Web 服務及當時對該服務是否滿意的集合,即“經驗庫”中隱含著自己的偏好信息?;谪惾~斯決策的多QoS 目標的Web 服務選擇策略,利用貝葉斯決策理論,在用戶自己的經驗庫中進行學習,進而做出更可能讓用戶滿意的選擇。

2.1貝葉斯理論介紹

貝葉斯理論是一種運用概率手段來進行推理的方法,被廣泛用于機器學習領域。它基于如下的假定,即待考查的量遵循某概率分布,且可根據這些概率及已觀察到的數據進行推理,以作出最優(yōu)的決策。它通過對已知分類數據的學習,來預測訓練數據的分類。作為一種基于概率的統(tǒng)計學習和決策理論框架內的基礎方法,貝葉斯理論已得到了廣泛的應用。

2.2 模型的建立

該方法以消費者的歷史經驗為基礎,通過概率統(tǒng)計的手段,計算出消費者并未使用過的Web 服務能讓自己的滿意程度?;谪惾~斯決策的多QoS 目標的Web 服務選擇策略的過程如圖1 所示,主要分為以下幾部分。

(1)當用戶要執(zhí)行某個活動時, 首先列出這個活動對應的所有具有相同功能的Web 服務以及各服務的QoS 性能指標。.

(2)利用貝葉斯決策模型和自己的經驗庫,計算各個Web 服務可能讓自己滿意的概率。

(3)挑選其中讓自己滿意概率最大的Web 服務。

(4)選擇該Web 服務,執(zhí)行。

(5)執(zhí)行結束,留下自己的反饋意見(滿意或不滿意)。將該服務的QoS 性能指標,以及自己的反饋意見(是否滿意)存入自己的經驗庫中,將相關信息提交給“服務管理中心”,更新該服務的QoS性能指標。

模型的評價

首先,該模型基于機器學習領域的經典方法:貝葉斯理論。該方法有嚴密的推導和證明,已被廣泛的應用于多個領域。所以該模型的理論基礎是非常堅實的。

其次,選擇Web 服務時,不需要用戶的介入。需要用戶做的工作僅僅是在Web 服務執(zhí)行完了以后,作出評價(“滿意”或“不滿意”)。所以該模型更具有智能性。

最后,該模型是一個動態(tài)的模型,隨著時間的推移,如果用戶的偏好慢慢發(fā)生變化,該模型所做出的抉擇也會根據用戶經驗庫的更新慢慢偏移。

總結和展望

面對眾多功能相同,但在非功能屬性上仍然存在差別的Web 服務,如何進行合理的選擇,對成功地構建面向服務應用具有非常重要的意義。本文在總結了當前基于多QoS 目標的Web 服務選擇策略發(fā)展現狀的基礎上,介紹了一種基于貝葉斯的多QoS 目標的Web 服務選擇策略。該方法具有理論基礎堅實、智能性、動態(tài)性的優(yōu)點。

基于馬爾科夫決策的決策策略選擇

概述

目標選擇是軍事決策過程的重要組成部分,現代戰(zhàn)爭中的目標選擇問題要置于打擊目標體系的作戰(zhàn)過程中分析。目標體系( Target System of System,TSoS) 是由多個作戰(zhàn)系統(tǒng)構成的集合,每個作戰(zhàn)系統(tǒng)實現一定任務并對體系使命產生影響。打擊目標體系的目的是使體系崩潰,打擊過程由于存在資源約束等原因被劃分為多個階段,因此如何打擊目標體系是具有復雜目標關聯的多階段目標選擇問題。傳統(tǒng)目標選擇方法多是通過層次分析法等對目標進行評估和排序,沒多屬性決策理論有考慮目標間復雜關聯,為處理該問題,目前主要采用貝葉斯網絡描述目標體系內影響關聯。故障樹方法但以上方法均未考慮目標選擇的多階段決策特征,沒有利用行動中間結果調整目標。目標選擇的動態(tài)性在動態(tài)武器目標分配問題和軍事行動規(guī)劃問題中得到研究。蔡懷平等研究了動態(tài)武器目標分配問題中的馬爾科夫性,解武杰等 將馬爾可夫過程用于分析防空武器目標選擇策略; Boutilier 等在馬爾科夫決策過程(Markov Decision Process,MDP) 基礎上提出決策理論規(guī)劃方法 對具有階段決策的軍事行動進行建模 但沒有考慮目標關聯和相應的復雜打擊效果,不能直接用于求解打擊目標體系過程中的目標選擇問題。陽東升等 利用動態(tài)貝葉斯網絡描述了戰(zhàn)場重心及作戰(zhàn)行動間影響關系,但搜索空間很大時求解效率不高,王長春等用復雜網絡仿真方法分析體系對抗過程,但是建模過程較復雜。

1 目標選擇問題描述

為分析目標選擇問題,需分析打擊目標對目標體系狀態(tài)的影響。與或樹使用圖形化能將復雜問題分解為多個簡單子問題,因此使用與或樹描述體系中狀態(tài)間的影響關系。目標體系的狀態(tài)包括三類要素狀態(tài): 目標單元狀態(tài) GT 、目標系統(tǒng)能力狀態(tài) GN 和目標體系能力狀態(tài) GS 。目標單元是目標體系中最基礎的要素,能被直接摧毀,如單部雷達,其狀態(tài)用葉節(jié)點集 GT ={ gTi } ( 1≤i≤I) 描述,I 為目標單元數量,單元毀傷,gTi = 1; 單元正常,gTi = 0。目標系統(tǒng)是多個目標單元或子系統(tǒng)的集合,之間相互關聯,顯現某種作戰(zhàn)能力,如預警能力。其狀態(tài)用非終端節(jié)點集 GN = { gNj } ( 1 ≤j ≤J) 描述,J 為目標系統(tǒng)數量,系統(tǒng)能完成任務,gNj = 1; 不能完成任務,gNj = 0。其包含的目標單元和子系統(tǒng)能力狀態(tài)作為其在與或樹中子節(jié)點,通過邏輯與、或關系,對系統(tǒng)能力狀態(tài)產生影響。

目標體系是多個目標系統(tǒng)的集合,體現出支持某個使命的能力,如防空使命能力。體系能力狀態(tài)使用根節(jié)點 GS 描述,體系能達成使命,GS =1; 不能達成,GS = 0。其包含的各目標系統(tǒng)能力作為其子節(jié)點,通過邏輯與、或關系對體系能力狀態(tài)產生影響。

2目標選擇過程建模

2. 1 問題假設

(1) 打擊目標體系過程分為若干個作戰(zhàn)階段,使用有限資源,目的是使體系失效;

(2) 目標體系狀態(tài)為進攻方完全感知,目標選擇決策僅與當前階段狀態(tài)有關,在當前狀態(tài)被觀察后,進攻方選擇打擊目標;

(3) 打擊每個目標具有一定成功概率,消耗一定資源,每個階段打擊多個目標,使得目標體系狀態(tài)在下一階段發(fā)生概率遷移。

2. 2 目標選擇決策模型

在符合以上假設時,打擊過程中目標體系狀態(tài)的變化可認為是一個離散時間隨機過程,其變化過程的狀態(tài)轉移概率由打擊目標行動所控制,因此目標選擇決策成為一個離散時間馬爾科夫決策過程,其最優(yōu)決策就是每階段要選擇打擊哪些目標,使目標體系失效的概率最大化。本文使用 DTMDP 模型描述打擊目標體系的目標選擇決策過程,即以下多元組:S是有限狀態(tài)集,S = { ( t,R,G) } ,t 指當前第t階段,R = ( R1 ,…,Rk ,…,RK ) 描述資源的狀態(tài)向量,Rk 為第 k 類資源數量,G = ( g1T ,…,gTI ,g1N ,…,gNJ ,GS ) ,表示體系的狀態(tài)向量。S0 是初始狀態(tài)。ST 是終止狀態(tài)集,對應于資源、時間消耗完畢,或目標體系失效的狀態(tài),在此狀態(tài)下打擊過程結束。A是所有行動組成的有限集,A( s) 是在狀態(tài) s下可采取的行動集,a A( s) 包含多個目標單元打擊任務 { Taski } ( 1 ≤i ≤I) ,Taski 成功概率為Pi ,即 Pi ( GTi = 1 | Taski ) = Pi 。若 Rk ( s,Taski ) 表示Taski 在狀態(tài) s 下消耗第 k 種資源的數量,Lk 表示第 k 種資源在每階段的最大允許使用數量,是在可用行動 a 下狀態(tài)轉移 s→s'的概率函數,表示在打擊行動 a 下,狀態(tài)在下一階段變化的可能性。

2.3 模型復雜度分析

打擊目標體系過程中的目標選擇模型和以往基于MDP 的目標選擇或軍事計劃模型 存在著以下區(qū)別:

(1)問題假設不同。以往模型中假設目標間無關聯,而本模型假設目標間相互影響;

(2)終止狀態(tài)不同。以往模型是以最大化毀傷目標為期望值,而本模型是以達成目標體系失效為目的;

(3)狀態(tài)空間不同。以往模型的狀態(tài)空間是所有目標的狀態(tài),而本模型的狀態(tài)空間包含了目標單元、系統(tǒng)能力、體系能力三類要素狀態(tài),使得狀態(tài)空間復雜度增加;

(4)時間尺度不同。以行動階段而非具體時間來描述打擊目標體系過程,并假設行動能夠在單階段內完成,簡化了行動空間描述;

(5)狀態(tài)遷移函數不同。以往模型只需計算各目標的狀態(tài)遷移,而本模型中的狀態(tài)遷移還需考慮不同層次間要素的狀態(tài)影響關系。

3求解算法

3. 1 求解框架

本問題狀態(tài)空間巨大,并且只關注求解從目標體系初始狀態(tài)到達終止狀態(tài)的行動策略,而 MDP 值迭代或策略迭代方法需對全狀態(tài)空間進行遍歷,因此求解效率較低,這就需要使用啟發(fā)式搜索算法來求解。RTDP ( Real Time Dynamic Programming) [18] 的 改 進 算 法 LRTDP ( LabeledRTDP) 方法要比其他如 LAO* 等求解 MDP 的啟發(fā)式搜索算法要更有效率 因此本文使用LRTDP 方法求解該模型。

RTDP 是基于試驗( trials-based) 的方法,每次試驗從初始狀態(tài)開始,基于當前狀態(tài)值的啟發(fā)式,根據貪婪策略選擇行動,然后根據行動的概率結果隨機創(chuàng)建后續(xù)狀態(tài),直至到達目的狀態(tài),然后進行反向值迭代。

3. 2 啟發(fā)式

設計了基于行動成功概率、行動執(zhí)行時間和資源邊界的啟發(fā)式提供對 V0 ( S) 的最佳估計值,使得對所有狀態(tài) s,V0 ( S) V( S) ,以促進LRTDP 中算法的收斂,但由于打擊目標體系過程中的目標選擇模型和傳統(tǒng)規(guī)劃模型在狀態(tài)空間、遷移函數上的區(qū)別,該啟發(fā)式不能直接應用于前者。針對打擊目標體系過程特點,分別設計新的啟發(fā)式來計算從目標體系當前狀態(tài) S 到達目標體系失效狀態(tài)的最小失敗概率 minV( S,fail) 和最小資源消耗需求 minV ( S,resource) ,并進行加權組合,以得到對 V0 ( S) 的最佳估計值。啟發(fā)式考慮了時間代價不同,由于打擊目標的時間消耗為單個階段,從當前狀態(tài)到達目標體系失效狀態(tài)的最小時間消耗需求 minV( S,time) 總是為單個階段,因此在新啟發(fā)式中沒有考慮時間代價。

( 1) 到達目標體系能力失效狀態(tài)的最小失敗概率為判斷從當前狀態(tài)到達體系失效狀態(tài)的最小失敗概率,先求得最大成功概率,即從當前狀態(tài)下預期能采取的所有打擊目標行動能夠達成的體系失效概率。當目標體系與或樹中非葉子節(jié)點 g 具有子節(jié)點集 SG = { sgk } ( 1 ≤k ≤K) ( K 為子節(jié)點數量)時,其中 Prok 表示使得第 k 個子節(jié)點失效的最大成功概率,sgk 描述第 k 個子節(jié)點是否失效,失效時取 1,正常時取 0。其基本過程為:

1) 與或樹自根節(jié)點向下遍歷各節(jié)點;

2) 取得各節(jié)點的狀態(tài),當節(jié)點狀態(tài)為失效,則該節(jié)點的毀傷概率為 1,當節(jié)點狀態(tài)為正常,取得其所有子節(jié)點的失效概率值,根據子節(jié)點間的與或關系計算使該節(jié)點失效的概率值;

3) 直至遍歷至葉節(jié)點,獲得對應打擊目標行動的成功概率( 即節(jié)點失效概率值) ,然后遞歸計算使根節(jié)點失效的成功概率值。用1 減去使根節(jié)點失效的最大成功概率值即得到使目標體系失效的最小失敗概率。

(2) 到達目標體系失效狀態(tài)的最小消耗為求解到達目標體系失效狀態(tài)的最小消耗資源,我們假設從當前狀態(tài)開始,所采取的每次打擊行動都能成功摧毀目標。根據與或樹的結構層次計算能夠導致目標體系失效所需的行動集的最小消耗資源。當目標體系與或樹中非葉子節(jié)點 g 具有子節(jié)點集 SG = { sgk } ( 1 ≤k ≤K) ( K 為子節(jié)點數量)時,當 SG 為與關系時,使 g 失效的最小資源消耗Res 為:當 SG 為或關系時:Res = min( { ( 1 - sgk ) ·Resk } ) ,1≤k≤K ( 14) 其中 Resk 表示使得第 k 個子節(jié)點失效的最小資源消耗,sgi 描述第 k 個子節(jié)點是否失效,失效時取 1,正常時取 0。其基本過程為:

1) 與或樹自根節(jié)點向下遍歷各節(jié)點;

2) 當節(jié)點狀態(tài)為失效,則該節(jié)點資源消耗為0,當節(jié)點狀態(tài)為正常,則取得其所有子節(jié)點消耗資源值,根據子節(jié)點間與或關系綜合得到該節(jié)點資源消耗值;

3) 直至遍歷到葉節(jié)點,獲得對應打擊目標行動的消耗資源,然后遞歸計算使根節(jié)點( 體系能力) 失效的資源消耗值。

比賽中決策策略選擇

概述

多智能體系統(tǒng)(Multi-Agent Systems, MAS)的研究是當前人工智能領域的一個熱點問題和重要的發(fā)展方向。足球機器人比賽已經成了MAS 研究的一個標準平臺。機器人足球發(fā)展的宏偉目標就是要實現自學習、自適應以及具有很強魯棒性的實時多智能機器人系統(tǒng), 力爭經過大約50年左右的發(fā)展,使機器人足球隊能夠打敗當時人類的世界冠軍足球隊。以Mirosot 系列機器人系統(tǒng)為例,給出了一種分層遞階控制設計, 并針對在視覺子系統(tǒng)不采集對方球員信息的情況下, 提出了實力對比函數的概念, 通過這個函數實時的根據場上的情況判斷雙方球隊的形式變化情況, 以提高決策子系統(tǒng)的智能性。

1決策系統(tǒng)的設計

1.1決策系統(tǒng)的分析

足球機器人的決策子系統(tǒng)扮演著教練員和運動員的職責。在真實的綠茵場上, 作為教練員要根據球場上的實際情況來部署球員, 同時也根據不同的對手, 選擇不同的隊形。足球機器人賽場上,決策者也應該根據不同的球隊采取不同的策略,對于錯綜復雜的球場形勢, 運用靈活的策略。一個好的決策系統(tǒng)不可能一勞永逸地一次性開發(fā)完成,是一個不斷完善的過程,因此,構建一個可持續(xù)開發(fā)、合理的決策框架就顯得尤為重要。分層遞進控制方式對決策思路進行邏輯上的分層。一般來說,決策思路是先確定機器人之間的協(xié)作關系,然后根據配合的要求確定每個機器人的運動方式。分層的具體方式可以有一定的不同。

比賽時,視覺子系統(tǒng)每 40ms 左右將球場上各機器人的位姿和球的信息傳入計算機 ,決策子系統(tǒng)根據傳入的視覺信息分析球場上的情況 , 做出相應的決策,轉化為每個機器人的左右輪速, 通過通信子系統(tǒng)發(fā)送給每個機器人。當決策子系統(tǒng)收到視覺輸入信息后, 對其進行預處理, 根據球和本方機器人的位置對場上攻防形勢進行分析, 并將所作的決策分解為各個任務———這是決策的第一層。根據分解完的任務從隊形庫中為本方機器人確定一個隊形———這是決策的第二層。根據隊形所需的角色以及我方機器人的位置 , 將每個角色分配給具體的機器人———這是決策的第三層。之后將左右輪速發(fā)送給對應的每個機器人。

1 .2 決策系統(tǒng)的設計

決策系統(tǒng)的設計過程是一個由基層到高層逐步構造的過程, 就是如何來實現決策系統(tǒng)分析結果?;谏鲜鲎闱驒C器人決策分析過程, 采用如下的足球機器人決策系統(tǒng)設計。

在比賽過程中 , 我們所要求小車的基本運動就是跑位、轉向, 繼而在此基礎上, 讓小車按照決策者的意圖來完成一些復雜動作, 最后實現決策者的整個策略思想。本設計采用面向對象的程序設計把整個決策系統(tǒng)劃分 3 個類, 他們由基層到高層(即由頂到底)分別為:基本動作類、技術動作類、決策類, 他們是從頂到底依次繼承, 高層可以繼承基層, 但基層不能繼承高層, 高層類中方法的實現需要基層類中方法的支持, 基本動作函數類的方法完成如原地轉動、轉到定角、轉到定點、到定點、到達定點有一定的速度函數等等, 其屬性是可調參數的結構體 ;技術動作函數類中封裝一些比較高級的動作, 如完成射門、防守、邊界處理等功能;組合動作函數類是更高層次的類, 其方法用來完成多車協(xié)作動作, 如點球大戰(zhàn)、爭球等動作 ; 決策類是整個決策系統(tǒng)的最高層, 是整個決策的核心部分 ,就是用這些底層類來實現決策者的意圖,如信息預處理、態(tài)勢分析、角色分配、動作實現等。由上設計實現過程,可以看出,我們可以根據決策者不同的需求,逐步完善這些底層函數類,各個函數類的補充只是改動本身,并不影響其他類,從而提高了整個決策系統(tǒng)的可維護性和可擴充性,為決策者提供了一個施展各種策略思想的平臺。

2決策策略的動態(tài)選擇算法

實力對比函數的提出

由于決策系統(tǒng)所能得到的信息僅是由視覺系統(tǒng)傳遞來的球的位置以及本方球員的位置和方向信息,因此如何判斷對方球隊的情況則變成了是一個不容易解決的問題。如果不對對方球隊情況進行判斷, 無論場上形式如何變化我方總是采用一成不變的策略則會降低整個球隊的智能性, 本系統(tǒng)通過實力對比函數來判斷場上情況的變化 , 并根據不同的情況做出不同的策略選擇, 從而提高了系統(tǒng)的智能性。

3實驗結果

在MiroSot 足球機器人系統(tǒng)中對本文提出的決策策略動態(tài)選擇算法進行了驗證, 其中 Team1 在進行決策策略選擇的時候采用傳統(tǒng)的決策策略選擇方法。Team2 ,Team3 ,Team4 也采用傳統(tǒng)的決策策略選擇方法, 并且 3 支球隊的實力一個比一個強(通過實驗得出球隊的強弱)。比賽結果如下表1 所示:

表1 比賽結果(選用本文算法之前)

球隊比賽結果
比分控球時間之比球在對方半場時間之比
Team1 vs Team23 :03:13:1
Team1 vs Team32 :13:12:1
Team1 vs Team40 :21:21:2

在選用的決策策略動態(tài)選擇算法之后 ,Team1 分別對 Team2 ,Team3 ,Team4 的比賽結果如表 2 所示:

表2比賽結果(選用本文算法之后)
球隊比賽結果
比分控球時間之比球在對方半場時間之比
Team1 vs Team26 :04:14:1
Team1 vs Team34 :14:12:1
Team1 vs Team41 :11:11:1

從實驗的比賽結果可以看出, 在采用了決策策略動態(tài)選擇算法之后同樣一支球隊在和比它實力弱球隊的比賽時會加強進攻從而可以大比分的戰(zhàn)勝對手, 在和它實力相當的球隊比賽時會適當的分配進攻和防守的比重 ,從而有機會戰(zhàn)勝對手 , 在和比自己實力強的球隊比賽時會加強防守在不輸球的情況下適時進攻。而實現的, 先進技術手段的引入可能而且應該給企業(yè)帶來效率和效益。信息化是企業(yè)發(fā)展的必然,是重大的機遇和挑戰(zhàn) ,我們要抓住信息化帶來的機遇 ,在“信息化帶動工業(yè)化”的國家戰(zhàn)略指導下,加強對國民經濟與社會信息化的組織領導 ,加快制定并實施國家信息化的總體規(guī)劃, 推動經濟與社會各個領域信息化的進程。通過信息化不斷提高企業(yè)核心競爭力, 強化綜合國力的微觀基礎 , 這正是我國加入世貿組織、應對經濟全球化挑戰(zhàn)的關鍵所在。

囚徒困境下的決策策略選擇

概述

美國決策研究專家黑斯蒂(Hastie,R)認為判斷與決策是人類根據自己的愿望和信念選擇行動的過程。決策(decision making)從狹義上說是一個動態(tài)過程,是個體運用感知覺、記憶、思維等認知能力,對情境做出選擇,確定策略的過程。廣義的決策則包含判斷與決策兩個部分。博弈論中“囚徒困境”下的決策就是一個很有代表性的例子.

囚徒困境簡介及其傳統(tǒng)策略

囚徒困境也稱社會兩難情境,是博弈論中的經典案例,指兩個嫌疑犯被警察抓到,但警方沒有掌握確切的證據,警察就分別找他們談話:“如果你們都不認罪的話,我們將讓你們都入獄一年;如果一個認罪,另一個不認罪的話,那么我們將判不認罪的那個十年的徒刑,認罪的將無罪釋放;如果兩人都認罪的話,我們將基于你們的誠實把每個人的徒刑降為五年,請你們各自權衡?!痹谶@種情形下,兩個疑犯都將面臨著一個具有決定意義的兩難選擇。

亞當·斯密(Adam Smith)曾提出了理性經濟人的假設,一是經濟人是自私自利的;二是經濟人的行為是理性的,即他們根據處境來判斷自身的利益,追求個人利益盡可能最大化。在一個標準的囚徒困境中,可以用下面這個矩陣來表示:

罪犯B
認罪不認罪
罪犯A認罪(5、5)(0、10)
不認罪(10、0)(1、1)

兩個囚犯面臨同樣的選擇——無論同伙選擇什么,他們最好都選擇認罪。因為,如果同伙不認罪,那么他們就無罪釋放,否則,他們起碼會被判十年徒刑。在一般情況下,假定每個囚徒都是理性的,他們的選擇通常會出現以下兩種可能情形:以A 為例,第一種可能是:B 認罪,這時如果A 也認罪,那么他們都要入獄5 年;如果A 不認罪,則A 將被判十年,B 無罪釋放,兩相比較下,對于A 來說,認罪顯然是最優(yōu)策略。第二種是:B 不認罪,這時如果A 認罪,那么B 將被判十年,A 將無罪釋放,如果A 也不認罪,那么他們都將被判一年,這種情形下,A 的最優(yōu)策略也是認罪。由此可見,對雙方而言,每一個囚犯從個人利益出發(fā),不考慮他人,他們都將選擇認罪。但如果雙方都不認罪,那么等待他們的將是一年的牢獄之苦。也就是說,對個人最有利的認罪策略,卻不是集體(A 和B)的最佳策略。

囚徒困境中彰顯的人性特點和理性信任觀

囚徒困境中個人的理性選擇卻是集體的非理性選擇,從人性的角度來看,就會發(fā)現其中包含著人性惡的傾向。如果A 是善的,那么會出現兩種情況,第一種情況是A 堅持不認罪也不供出B,B 同樣也是堅持不認罪也不供出A;第二種情況是,A 堅持不認罪,B 認罪。

如果A 是惡的,那么也會出現兩種情況,第一種情況是A 認罪也供出B,而B 不認罪。第二種情況是A 認罪也供出B,B 也認罪且也供出A 。

從善的角度考慮問題,可能得到最好的(1 年)和最糟的(10 年)的處罰結果;從惡的角度考慮,可能得到最好的(0 年)和最糟的(5年)的處罰結果。A、B 雙方都從自己的利益考慮,選擇惡的可能性會更大些。由此從囚徒困境中看到了人性惡的傾向。

在很多情況下,人面對的是一種集體條件下的困境,即博弈的雙方可能是兩大集團或更多的人,相同的博弈者可能會不斷地重復面對相似的困境,“有條件的合作策略”將可能是理性經濟人的最優(yōu)策略。

重復為博弈產生了新的動力結構。通過重復,博弈者就可能按對手以往的選擇而決定當前的選擇。例如,存在一種所謂的“一觸即發(fā)”策略,即“只要你背叛,我隨后將永遠背叛”,當雙方保持背叛的狀態(tài)時,就失去了雙方獲益的機會。而如果雙方合作,其前提是雙方的相互信任,就可能爭取到雙方獲益的機會。還存在另一種所謂的“一報還一報”的策略,以合作開始,然后模仿對方上一步選擇的策略。該策略以信任開始,決不首先背叛。時間嵌入性理論表明,今天的行為(合作或背叛),將影響再次相遇時所做的選擇。信任是使關系更持久、更穩(wěn)固的最優(yōu)選擇。

現實生活中的“囚徒困境”及其應對策略

囚徒困境在現實社會中廣泛存在,而且情形要復雜的多。如汽車尾氣與空氣質量的問題。要保持空氣清潔,汽車主人就要對車安裝防污染的過濾裝置,需要自己負擔費用。而理性個體既想享受清潔的空氣,又不愿為此付出代價。還有民眾生育觀的多子多福與人口膨脹的問題,上車不排隊擁擠的問題等等。

要想克服重復條件下的囚徒困境,就要從集體成員的主觀條件入手,使成員在新的基礎上做出最優(yōu)決策,打破原有的納什均衡,建立新的有價值的納什均衡(納什均衡是經濟學家Nash 提出的,若有N 個人參加博弈,那么在給定他人戰(zhàn)略的情況下,在每一個參與人選擇的最優(yōu)戰(zhàn)略所形成的戰(zhàn)略組合中,沒有任何一個參與人有積極性選擇其他戰(zhàn)略,也沒有任何人有積極性打破這種均衡)。為此可以采取以下措施:

1、利用強化的作用。制定規(guī)則或提供獎懲措施,通過正強化的作用,引導決策者改變自己原有的決策偏好,向著有利于集體利益的方向發(fā)展,做出對集體而言的最優(yōu)策略。

2、創(chuàng)造良好的文化氛圍。囚徒困境說到底其實也是一種道德困境,要解決這種道德困境,就要從根本入手,創(chuàng)造良好的文化氛圍,逐步改變全體的道德觀、價值觀、主觀偏好。深刻認識囚徒困境的弊端,充分利用強化手段,在良好的社會文化氛圍中創(chuàng)造人人都能從全局的利益出發(fā),團結合作,使全社會建立起一種新的有利于全體成員的有價值的納什均衡。