1. 當前位置:首頁 > 新聞中心 > 科研動態

    科研動態

    類腦智能研究中心通過多尺度動態編碼助力脈沖網絡實現高效強化學習

  • 發表日期:2021-12-13 【 【打印】【關閉】
  •   在深度神經網絡 (Deep Neural Network,DNN) 的幫助下,深度強化學習在許多復雜任務上取得了巨大成功,如游戲或機器人控制等。然而,深度強化學習方式與已知的生物強化學習方式仍然相差甚遠,如生物中更多的利用群編碼或具有復雜動力學的脈沖神經元來編碼,并利用具有生物合理的可塑性學習規則來進一步形成復雜的認知功能。近期,自動化所類腦智能研究中心徐波、張鐵林團隊,通過將生物系統中多尺度信息的高效編碼、細胞集群的時空信息整合機制加入到脈沖神經網絡中來,在多類強化學習任務中取得了超過深度強化學習的突出表現。 

      團隊在類腦脈沖神經網絡(Spiking Neural Network,SNN)的研究方面積累豐富,曾提出包括自組織反向傳播算法[Science Advances 2021]、獎賞反饋傳播算法[IEEE TNNLS 2021]等在內的一系列脈沖網絡高效優化方法。與 DNN 相比,SNN 具有更強的生物合理性,可以支持更多生物學習法則、生物網絡結構的啟發式應用。因此,團隊仍然選擇在SNN上加入更復雜的、大腦啟發的多尺度動態編碼機制,包括網絡尺度和神經元尺度,來進一步增強信息的高維狀態表征能力,使其在更復雜的弱監督強化學習任務中發揮優勢。 

      多尺度動態編碼提升的脈沖神經網絡(MDC-SAN;圖1)模擬了生物大腦中的細胞集群編碼機制,并建模網絡尺度的群體編碼和神經元尺度的二階動態神經元編碼,用于高階脈沖式的狀態表征。經典的策略梯度算法TD3被用來優化MDC-SAN網絡,同時為了更好的獎賞學習,在訓練學習過程中引入了高精度人工深度Critic網絡進行混合訓練,并在測試過程中去掉Critic網絡。在四個標準OpenAI Gym連續動作空間的學習任務上評估訓練好的MDC-SAN,包括Ant-v3、HalfCheetah-v3、Walker2d-v3和Hopper-v3。實驗結果表明,多尺度動態編碼,包括群體編碼和二階動態神經元的復雜時空編碼,都有助于提高 MDC-SAN 的性能。且在相同的參數配置和TD3框架下,取得了優于DNN強化學習的表現(圖2)。 

      相關工作Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning于今年12月被AAAI 2022接收。博士生張篤振作為第一作者,徐波研究員和張鐵林副研究員(共同一作)作為通訊作者,博士生賈順程參與了部分實驗結果的可視化工作。相關工作屬于“類腦脈沖神經網絡模型與系統”2035創新任務,得到了國家自然科學基金委、先導B等項目的資助。 

    1: MDC-SAN模型整體框架 

    2 MDC-SAN結果優于傳統深度學習方法(DAN,Pop-DAN)和傳統脈沖網絡方法(LIF

    日本可试看A片,我们高清观看免费韩国片,国产AV无码亚洲AV无码