深度強化學習原理與實踐

陳仲銘 何明

立即出貨

買這商品的人也買了...

相關主題

商品描述

本書構建了一個完整的深度強化學習理論和實踐體系:從馬爾可夫決策過程開始,根據價值函數、策略函數求解貝爾曼方程,到利用深度學習模擬價值網絡和策略網絡。書中詳細介紹了深度強化學習相關算法,如Rainbow、Ape-X算法等,並闡述了相關算法的具體實現方式和代表性應用(如AlphaGo)。此外,本書還深度剖析了強化學習各算法之間的聯系,有助於讀者舉一反三。

本書分為四篇:初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容,反映了深度強化學習領域過去的發展歷程和研究進展,有助於讀者發現該領域中新的研究問題和方向。

作者簡介

陳仲銘:西安電子科技大學碩士。主要研究方向為強化學習與深度學習、數據挖掘、圖像算法及其應用。曾參與激光點云三維掃描、個性化推薦系統、多傳感器融合系統等大型項目,期間多次獲國家級創新項目獎,並在國內外發表多篇相關論文。此外,作為技術顧問為多家科研和企業機構提供關於數學建模、深度學習等諮詢和培訓。著有《深度學習原理與實踐》一書。

何明:重慶大學學士,中國科學技術大學博士,曾於美國北卡夏洛特分校訪學交流,目前為上海交通大學電子科學與技術方向博士後研究人員、OPPO研究院人工智能算法研究員。主要研究方向為深度強化學習、數據挖掘與知識發現、機器學習方法及其應用,側重於移動端用戶行為分析與建模。在TIP、TWEB、DASFAA、IEEE Access等重要學術會議和期刊共發表論文10餘篇,並獲得過數據挖掘領域國際會議KSEM2018的最佳論文獎。

目錄大綱

第一篇初探強化學習
--第1章強化學習緒論
--第2章數學基礎及環境
第二篇求解強化學習
--第3章動態規劃法
--第4章蒙特卡洛法
--第5章時間差分法
第三篇求解強化學習進階
--第6章值函數近似法
--第7章策略梯度法
--第8章整合學習與規劃
第四章深度強化學習
--第9章深度強化學習
--第10章深度Q網絡
--第11章深度強化學習算法框架
--第12章從圍棋AlphaGo到AlphaGo Zero