1. 當前位置:首頁 > 新聞中心 > 科研動態

    科研動態

    我所研發輕量型德州撲克AI程序AlphaHoldem,達到人類專業玩家水平

  • 發表日期:2021-12-10 【 【打印】【關閉】
  •   從人工智能學科誕生伊始,智能博弈研究就是人工智能技術發展創新的沃土,并且一直都是衡量人工智能發展水平的重要評價準則[1][2][3][4]。2016年,AlphaGo[2]4:1的成績戰勝圍棋世界冠軍李世石,這一事件被認為是智能博弈技術發展的一個重要里程碑。不同于完美信息的圍棋博弈,現實世界博弈的一個顯著特點是由于信息不完備性造成的對手不確定。以德州撲克為代表的大規模不完美信息博弈問題很好地集中了這一難題,是進一步深入研究智能博弈理論與技術的極佳平臺。近年來,國際上圍繞德州撲克這一大規模不完美信息博弈問題的優化求解取得了長足進步,來自加拿大阿爾伯特大學和美國卡內基梅隆大學的研究者設計的AI程序DeepStack[3]Libratus[4]先后在兩人無限注德州撲克中均戰勝了人類專業選手,隨后卡內基梅隆大學設計的AI程序Pluribus[5]又在六人無限注德州撲克中戰勝了人類專業選手。

      上述具有里程碑意義的德州撲克AI都依賴一種迭代式的反事實遺憾最小化(Counterfactual Regret Minimization,CFR[6]算法。該算法在訓練過程中不僅需要耗費大量的計算資源,同時需要很多德州撲克游戲的領域知識。近日,中國科學院自動化研究所興軍亮研究員領導的博弈學習研究組在德州撲克AI方面取得了重要進展,提出了一種高水平輕量化的兩人無限注德州撲克AI程序AlphaHoldem。AlphaHoldem整體上采用一種精心設計的偽孿生網絡架構,并將一種改進的深度強化學習算法與一種新型的自博弈學習算法相結合,在不借助任何領域知識的情況下,直接從牌面信息端到端地學習候選動作進行決策。AlphaHoldem使用了1臺包含8GPU卡的服務器,經過三天的自博弈學習后,戰勝了Slumbot[7]DeepStack[3]。在每次決策時,AlphaHoldem僅需不到3毫秒,比DeepStack速度提升超過了1000倍。同時,AlphaHoldem與四位高水平德州撲克選手對抗1萬局的結果表明其已經達到了人類專業玩家水平。

      一、背景介紹

      德州撲克不僅是最流行的撲克類游戲,而且也為研究智能博弈基礎理論和方法提供了一個絕佳試驗和測試平臺。首先,德州撲克博弈的問題復雜度很大,兩人無限注德州撲克的決策空間復雜度超過10161次方[3];其次,德州撲克博弈過程屬于典型的回合制動態博弈過程,游戲參與者每一步決策都依賴于上一步的決策結果,同時對后面的決策步驟產生影響;另外,德州撲克博弈屬于典型的不完美信息博弈,博弈過程中玩家各自底牌信息不公開使得每個玩家信息都不完備,玩家在每一步決策時都要充分考慮對手的各種可能情況,這就涉及到對手行為與心理建模、欺詐與反欺詐等諸多問題。此外,由于德州撲克游戲規則又非常簡單且邊界確定,特別適合作為一個虛擬實驗環境對博弈的相關基礎理論方法和核心技術算法進行深入探究。

      目前主流德州撲克AI背后的核心思想是利用反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法[6]逼近納什均衡策略。具體來說,首先利用抽象(Abstraction)技術[3][7]壓縮德撲的狀態和動作空間,從而減小博弈樹的規模,然后在縮減過的博弈樹上進行CFR算法迭代。這些方法嚴重依賴于人類專家知識進行博弈樹抽象,并且CFR算法需要對博弈樹的狀態結點進行不斷地采樣遍歷和迭代優化,即使經過模型縮減后仍需要耗費大量的計算和存儲資源。例如,DeepStack使用了153萬的CPU時以及1.3萬的GPU時訓練最終AI,在對局階段需要一個GPU進行1000CFR的迭代過程,平均每個動作的計算需耗時3秒。Libratus消耗了大于300萬的CPU時生成初始策略,每次決策需要搜索4秒以上。這樣大量的計算和存儲資源的消耗嚴重阻礙了德撲AI的進一步研究和發展;同時,CFR框架很難直接拓展到多人德撲環境中,增加玩家數量將導致博弈樹規模呈指數增長。另外,博弈樹抽象不僅需要大量的領域知識而且會不可避免地丟失一些對決策起到至關作用的信息。   

    1:不同算法的訓練測試資源對比

      二、方法介紹

      不同于已有的基于CFR算法的德州撲克AI,中國科學院自動化研究所博弈學習研究組基于端到端的深度強化學習算法研發了一款高水平輕量型的德州撲克AI程序AlphaHoldem,其整體架構如圖4所示。AlphaHoldem采用Actor-Critic學習框架[8],其輸入是卡牌和動作的編碼,然后通過偽孿生卷積網絡(結構相同參數不共享)提取特征,接下來通過兩個全連接層得到狀態的高層特征,最終輸出動作概率和價值估計。AlphaHoldem的成功得益于其采用了一種高效的狀態編碼來完整地描述當前及歷史狀態信息、一種基于Trinal-Clip PPO損失的深度強化學習算法來大幅提高訓練過程的穩定性和收斂速度、以及一種新型的Best-K自博弈方式來有效地緩解德撲博弈中存在的策略克制問題。             

    4:端到端學習德州撲克AI學習框架

      1.高效的全狀態空間編碼:已有德州撲克AI受限于CFR算法的處理能力,均需要對牌面狀態和動作信息進行壓縮,壓縮的好壞完全取決于對德撲領域知識的掌握程度,而且不可避免地造成信息的損失。AlphaHoldem對整個狀態空間進行高效編碼,不利用德撲領域知識進行信息壓縮。對于卡牌信息,將其編碼成包含多個通道的張量,用來表示私有牌、公共牌等信息。對于動作信息,AlphaHoldem同樣將其編碼為多通道張量,用來表示各玩家當前及歷史的動作信息。AlphaHoldem的多維張量狀態表示方法不僅完整地編碼了當前及歷史的狀態信息,而且非常適合作為卷積神經網絡的輸入進行特征的學習。

      2.Trinal-Clip PPO強化學習:由于信息不完美及不同對手的各種詐唬欺騙行為,使得德州撲克成為一種結果具有很強隨機性的游戲,這導致常見的強化學習算法(如PPO[9]等)訓練過程很不穩定且難以收斂。AlphaHoldem提出了一種新型的Trinal-Clip PPO損失用于改進深度強化學習過程的穩定性,通過引入3個截斷參數解決了PPO算法在優勢函數小于零時損失值方差過大的問題以及全壓等動作造成的價值函數難估計的問題。整體上來說,Trinal-clip PPO損失有效緩解了德撲博弈的強隨機性造成的策略訓練不穩定問題,使AlphaHoldem訓練得又快又好。

      3.Best-K自博弈訓練方法:德撲游戲不同策略之間存在復雜的克制關系,這使得Naive自博弈方法[10]或是AlphaGo采用的Best-Win自博弈方法[3]很難在德撲游戲中收斂。然而使用AlphaStar的群體博弈PBT[11],神經虛擬自博弈NFSP[12]等方法來訓練德撲AI會消耗比傳統CFR算法更多的計算資源。為了有效地平衡訓練效率和模型性能,AlphaHoldem采用了一種新型的Best-K自博弈方法。該方法通過在訓練過程中測試歷史模型的性能,挑選出K個最好的模型與現在最新的模型對打,不斷通過強化學習提升自身性能。

      與當前的高水平德撲AI進行比較,AlphaHoldem具有明顯優勢。經過10萬局的對抗,AlphaHoldem平均贏Slumbot[7]2018年世界計算機撲克大賽ACPC冠軍,現在還在進化)111.56 mbb/局(每1000手牌贏多少個大盲注),贏DeepStack(課題組使用120 GPU卡訓練3周復現的版本)16.91 mbb/局。同時,它可以達到人類專業玩家水平,通過和4位專業玩家對抗1萬局,AlphaHoldem平均贏專業玩家10.27 mbb/局。另外,AlphaHoldem在一臺包含1AMD 2.00GHz CPU64個核心)、8NVIDIA TITAN V GPU的服務器上僅訓練三天,在一個CPU核心下每次決策僅需4毫秒,做到了真正的又快又好。

      接下來,AlphaHoldem會接入到課題組自研的人機對抗平臺OpenHoldem[13]http://holdem.ia.ac.cn/)供研究者開放測試(圖5)。OpenHoldem是學術界第一個開放的大規模不完美信息博弈研究平臺,包含了多維度評測指標、高性能基準AI以及公開的在線測試環境。平臺支持人人對抗、機機對抗以及人機對抗等多種模式、支持AI分布式并行對抗、支持動態測試請求響應及資源分配、支持多用戶并發訪問和跨終端統一登錄。平臺目前已經吸引了來自高校、研究所、互聯網企業等200余家單位的近500名注冊用戶,并受到了國內多家權威機構和主流媒體的轉發報道。

    5OpenHoldem在線不完美信息人機對抗平臺首頁

      AlphaHoldem采用了端到端強化學習的框架,大大降低了現有德撲AI所需的領域知識以及計算存儲資源消耗,并達到了人類專業選手的水平。該框架是一個通用的端到端學習框架,研究團隊已經在多人無限注德撲上驗證了該框架的適用性,目前正在提升多人模型訓練過程的學習性能。團隊還準備將AlphaHoldem背后的技術應用到更多不完美信息博弈問題中,比如麻將、斗地主、橋牌等,同時也計劃進行多人博弈策略空間的均衡結構分析等研究內容。

     

    論文信息:

    Enmin Zhao#, Renye Yan#, Jinqiu Li, Kai Li, Junliang Xing*. High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning. In AAAI 2022.

    Kai Li, Hang Xu, Enmin Zhao, Zhe Wu, Junliang Xing*. OpenHoldem: An Open Toolkit for Large-Scale Imperfect-Information Game Research. ArXiv preprint arXiv:2012.06168, 2020.

     

    參考文獻

    [1] Murray C, Joseph H, and Feng-hsiung H. Deep Blue. Artificial Intelligence, 2002, 134(1):57-83.

    [2] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

    [3] Morav?ík M, Schmid M, Burch N, et al. Deepstack: Expert-level artificial intelligence in heads-up no-limit poker[J]. Science, 2017, 356(6337): 508-513.

    [4] Brown N, Sandholm T. Superhuman AI for heads-up no-limit poker: Libratus beats top professionals[J]. Science, 2018, 359(6374): 418-424.

    [5] Brown N, Sandholm T. Superhuman AI for multiplayer poker[J]. Science, 2019, 365(6456): 885-890.

    [6] Zinkevich M, Johanson M, Bowling M, et al. Regret minimization in games with incomplete information[J]. Advances in neural information processing systems, 2007, 20: 1729-1736.

    [7] Jackson E G. Slumbot NL: Solving large games with counterfactual regret minimization using sampling and distributed processing[C]. Workshops at the Twenty-Seventh AAAI Conference on Artificial Intelligence. 2013.

    [8] Konda V R, Tsitsiklis J N. Actor-critic algorithms[C]. Advances in neural information processing systems. 2000: 1008-1014.

    [9] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. ArXiv preprint arXiv:1707.06347, 2017.

    [10] Silver D, Hubert T, Schrittwieser J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play[J]. Science, 2018, 362(6419): 1140-1144.

    [11] Vinyals O, Babuschkin I, Czarnecki W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

    [12] Heinrich J, Lanctot M, Silver D. Fictitious self-play in extensive-form games[C]. International conference on machine learning. PMLR, 2015: 805-813.

    [13] Li K, Xu H, Zhang M, et al. OpenHoldem: An Open Toolkit for Large-Scale Imperfect-Information Game Research[J]. ArXiv preprint arXiv:2012.06168, 2020.

     

     

    日本可试看A片,我们高清观看免费韩国片,国产AV无码亚洲AV无码