登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書

『簡體書』控制系统与强化学习 [美]肖恩·梅恩

書城自編碼: 4104310
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: [美]肖恩·梅恩[Sean Meyn]
國際書號(ISBN): 9787111775768
出版社: 机械工业出版社
出版日期: 2025-05-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 163.9

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
金融强国:新资源暨金融资源学派视角
《 金融强国:新资源暨金融资源学派视角 》

售價:HK$ 140.8
英国海上霸权的兴衰
《 英国海上霸权的兴衰 》

售價:HK$ 107.8
版图之枷:军事后勤视野下的明代国家兴亡
《 版图之枷:军事后勤视野下的明代国家兴亡 》

售價:HK$ 97.9
肌筋膜连接与修复
《 肌筋膜连接与修复 》

售價:HK$ 75.9
礼教中的女性与生活中的女性:汉代女性形态研究
《 礼教中的女性与生活中的女性:汉代女性形态研究 》

售價:HK$ 63.8
无人机航拍酷炫运镜119招:从构图、拍摄到剪辑
《 无人机航拍酷炫运镜119招:从构图、拍摄到剪辑 》

售價:HK$ 96.8
慢思考,快心流:深度开发大脑潜能的思维方式(一本精准的天才训练手册,一套超凡的心流打造功法。精进领航人小务虚脑洞再开,助你开发大脑无限潜能)
《 慢思考,快心流:深度开发大脑潜能的思维方式(一本精准的天才训练手册,一套超凡的心流打造功法。精进领航人小务虚脑洞再开,助你开发大脑无限潜能) 》

售價:HK$ 63.8
《长河落日耀金戈——中国古代北方少数民族征战史例  》(以十场战争解读千年边塞历史,再现“铁马冰河入梦来”的热血豪迈)
《 《长河落日耀金戈——中国古代北方少数民族征战史例 》(以十场战争解读千年边塞历史,再现“铁马冰河入梦来”的热血豪迈) 》

售價:HK$ 41.8

 

編輯推薦:
本书旨在以一种易于理解的方式解释强化学习和最优控制背后的科学,读者只需要具有微积分和矩阵代数背景即可。本书的独特之处在于通过算法设计来获得学习算法最快收敛速度,以及对为什么强化学习有时会失败的洞见。本书通过使用更直观的确定性探索代替随机探索进行学习,从一开始就避免了高级随机过程理论。一旦读者理解了这些思想,就不难掌握植根于随机控制的技术。本书共分为两部分:第一部分介绍无噪声情况下的基础知识;第二部分介绍强化学习与随机控制。本书适合控制相关专业研究生、高年级本科生,以及对控制工程和强化学习感兴趣的工程师阅读。
內容簡介:
一个高中生可以创建深度的Q-learning代码来控制她的机器人,却不了解 ”深度 ”或 ”Q ”的含义,也不知道为什么代码有时会失败。本书旨在以具有微积分和矩阵代数背景的学生可以理解的方式,解释强化学习和优化控制背后的科学。本书的一个独特重点是算法设计,以获得学习算法的快收敛速度,以及对强化学习有时失败的原因的洞察。一开始就避开了高级随机过程理论,用更直观的确定性探测来代替学习的随机探索。一旦理解了这些思想,掌握植根于随机控制的技术就不难了。这些主题在本书的第二部分有所涉及,从马尔科夫链理论开始,以对强化学习的行为者批评方法的全新审视结束。
關於作者:
肖恩·梅恩(Sean Meyn) 佛罗里达大学电气与计算机工程系教授、Robert C. Pittman杰出学者讲席教授。他因对随机过程及其应用的研究而闻名。他与R. L. Tweedie合著的获奖专著Markov Chains and Stochastic Stability现在是该领域的标准参考。2015年,他和Ana Busic教授获得了谷歌研究奖,以表彰他们在可再生能源整合方面的研究。他是IEEE Fellow和IEEE控制系统协会杰出讲师,主讲与强化学习和能源系统相关的主题。
目錄
目录译者序前言第1章引言11.1本书涵盖的内容11.2未深入探讨的内容41.3参考资料5第一部分无噪声情况下的基础知识第2章控制理论概述82.1身边的控制问题82.2该怎么办102.3状态空间模型112.3.1充分统计量与非线性状态空间模型112.3.2状态增广和学习122.3.3线性状态空间模型132.3.4向牛顿和莱布尼茨致敬152.4稳定性和性能162.4.1总成本162.4.2平衡点的稳定性172.4.3李雅普诺夫函数182.4.4技术证明212.4.5连续时间域的几何222.4.6线性状态空间模型242.5展望未来:从控制理论到强化学习282.5.1演员-评论家292.5.2时间差分292.5.3老虎机与探索302.6如何忽略噪声312.7示例312.7.1华尔街312.7.2山地车332.7.3磁球352.7.4倒立摆372.7.5Pendubot和Acrobot382.7.6合作赛艇402.8习题412.9注记49第3章最优控制503.1总成本的价值函数503.2贝尔曼方程513.2.1值迭代533.2.2策略改进553.2.3佩龙-弗罗贝尼乌斯定理:简单介绍*553.3各种变形583.3.1折扣成本583.3.2最短路径问题583.3.3有限时域603.3.4模型预测控制613.4逆动态规划613.5贝尔曼方程是一个线性规划633.6线性二次调节器643.7再向前看一些663.8连续时间最优控制*673.9示例693.9.1山地车693.9.2蜘蛛和苍蝇713.9.3资源争夺与不稳定性723.9.4求解HJB方程753.10习题773.11注记83第4章算法设计的ODE方法844.1常微分方程844.2回顾欧拉方法874.3牛顿-拉弗森流884.4最优化904.4.1凸性的作用914.4.2Polyakojasiewicz条件934.4.3欧拉近似934.4.4含约束的优化954.5拟随机近似984.5.1拟蒙特卡罗方法1004.5.2系统辨识1014.5.3近似策略改进1034.5.4QSA理论简介1074.5.5恒定增益算法1114.5.6Zap QSA1134.6无梯度优化1134.6.1模拟退火1144.6.2算法菜单1154.7拟策略梯度算法1184.7.1山地车1184.7.2LQR1214.7.3高维的情况1234.8ODE的稳定性*1234.8.1伽罗瓦不等式1234.8.2李雅普诺夫函数1254.8.3梯度流1264.8.4在∞处的ODE1294.9QSA的收敛性理论*1324.9.1主要结果和一些见解1334.9.2ODE的整体性1364.9.3稳定性判据1404.9.4确定性马尔可夫模型1444.9.5收敛速度1454.10习题1504.11注记1564.11.1算法设计的ODE 方法1564.11.2最优化1574.11.3QSA1574.11.4SGD与极值搜索控制158第5章价值函数近似1615.1函数近似架构1625.1.1基于训练数据的函数近似1635.1.2线性函数近似1645.1.3神经网络1655.1.4核1665.1.5我们完成了吗1685.2探索和ODE近似1695.3TD学习和线性回归1725.3.1既定策略的时间差分1725.3.2最小二乘和线性回归1735.3.3递归LSTD和Zap1765.4投影贝尔曼方程和TD算法1775.4.1伽辽金松弛和投影1785.4.2TD(λ)学习1785.4.3投影贝尔曼算子和Q学习1825.4.4GQ学习1835.4.5批处理方法和DQN1845.5凸Q学习1865.5.1有限维函数类的凸Q学习1875.5.2BCQL和核方法1905.6连续时间下的Q学习*1915.7对偶性*1935.8习题1955.9注记1995.9.1机器学习1995.9.2TD学习1995.9.3Q学习200第二部分强化学习与随机控制第6章马尔可夫链2046.1马尔可夫模型是状态空间模型2046.2简单示例2076.3谱和遍历性2106.4随机向前看一些2136.4.1评论家方法2136.4.2演员方法2146.5泊松方程2146.6李雅普诺夫函数2166.6.1平均成本2176.6.2折扣成本2186.7模拟:置信边界和控制变量2206.7.1有限的渐近统计量2206.7.2渐近方差和混合时间2226.7.3样本复杂度2246.7.4一个简单示例2246.7.5通过设计消除方差2266.8灵敏度和纯演员方法2286.9一般马尔可夫链的遍历理论*2306.9.1分类2306.9.2李雅普诺夫理论2316.10习题2336.11注记241第7章随机控制2427.1MDP:简要介绍2427.2流体模型近似2457.3队列2487.4速度缩放2507.4.1流体模型2517.4.2计算和完整性2527.4.3完整性详解2547.5LQG2557.5.1流体模型动力学2557.5.2DP方程2567.5.3部分可观测2577.6一个排队游戏2587.7用部分信息控制漫游车2617.8老虎机2637.8.1老虎机模型2647.8.2贝叶斯老虎机2647.8.3天真的乐观可以成功2677.9习题2687.10注记276第8章随机近似2778.1渐近协方差2788.2主题与路线图2798.2.1ODE设计2808.2.2ODE近似2818.2.3步长选择2838.2.4多时间尺度2848.2.5算法性能2858.2.6渐近与瞬态性能2878.3示例2898.3.1蒙特卡罗2898.3.2随机梯度下降2908.3.3经验风险最小化2928.4算法设计示例2938.4.1增益选择2938.4.2方差公式2948.4.3模拟2958.5Zap随机近似2978.5.1近似牛顿-拉弗森流2978.5.2Zap零2988.5.3随机牛顿-拉弗森算法2998.6买方责任自负3008.6.1条件数灾难3008.6.2马尔可夫记忆的灾难3028.7一些理论*3038.7.1稳定性和收敛性3048.7.2线性化和收敛速率3048.7.3PolyakRuppert平均3068.8习题3108.9注记3118.9.1SA和RL3118.9.2稳定性3128.9.3渐近统计3128.9.4更少的渐近统计312第9章时间差分法3149.1策略改进3159.1.1既定策略价值函数和DP方程3159.1.2PIA与Q函数3169.1.3优势函数3179.2函数逼近和光滑3189.2.1条件期望和投影3199.2.2线性独立性3209.3损失函数3219.3.1均方贝尔曼误差3219.3.2均方价值函数误差3229.3.3投影贝尔曼误差3239.4TD(λ)学习3239.4.1线性函数类3239.4.2非线性参数化3259.5回归Q函数3269.5.1探索3269.5.2异同策略算法3279.5.3相对TD(λ)3299.5.4优势函数的TD(λ)3329.6沃特金斯的Q学习3339.6.1最优控制要素3339.6.2沃特金斯算法3349.6.3探索3359.6.4ODE分析3369.6.5方差问题3399.7相对Q学习3409.7.1增益选择3419.7.2诚实的结论3429.8GQ和Zap3439.8.1GQ学习3449.8.2Zap Q学习3469.9技术证明*3499.9.1优势函数3499.9.2TD稳定性理论3499.10习题3539.11注记3549.11.1时间差分方法3549.11.2Q学习3549.11.3GQ和Zap3559.11.4凸Q学习356第10章搭建舞台,演员回归35710.1舞台、投影和伴随矩阵35810.1.1线性算子和伴随矩阵35810.1.2伴随矩阵和资格向量35910.1.3加权范数和加权资格向量36010.2优势函数与新息36210.2.1优势函数的投影及其值36210.2.2加权范数36310.3再生36410.4平均成本及其他指标36510.4.1其他指标36510.4.2平均成本算法36810.5集结演员37010.5.1平均成本的演员-评论家37010.5.2一些警告和补救措施37210.6无偏SGD37310.7优势函数和控制变量37510.7.1通过优势函数减少方差37510.7.2更好的优势函数37610.8自然梯度和Zap37710.9技术证明*37910.10注记38210.10.1伴随矩阵和TD学习38210.10.2演员-评论家方法38310.10.3一些历史38410.10.4费歇耳信息384附录附录A数学背景386附录B马尔可夫决策过程392附录C部分观测和置信状态399参考文献405
內容試閱
译 者 序由于之前我在机械工业出版社翻译的两本英文书都已出版了,合作比较顺利,因此在编辑老师联系我翻译这本书时,我就欣然接受了,这将是我翻译的第三本关于自动控制理论、自动化技术的书。下面我就谈谈此次翻译过程中的一些认识和体会,希望对读者理解书中的内容能有所帮助。本书的主题非常好,讲解也详略得当、通俗易懂,既体现了作者的真知灼见,又能够让读者通过清晰的语言表述、丰富的示例、习题和注记了解相关内容与事件的来龙去脉。本书共有10章,分为两部分,第一部分(第1~5章)是关于无噪声情况或者确定性情况下的基础知识的;第二部分(第6~10章)是关于含有噪声或者随机过程的学习控制主题的。具体来说,第一部分简要讲述确定性控制系统相关内容,如控制的基本问题、最优控制及其优化算法设计以及价值函数近似等,特别是对何为控制问题、控制理论到强化学习的演化关系、期望和方差的现实意义、优化算法设计以及价值函数近似等问题的阐述,别具特色,具有很强的启发意义。第二部分讲述存在噪声或者处于某类马尔可夫链描述情况下的随机系统优化设计问题,主要包括马尔可夫链的相关知识、基于马尔可夫决策过程的随机控制、随机近似基础知识、用于随机优化的几类时间差分算法以及演员-评论家算法及其架构等内容,其中对于Watkins的Q学习、LQG、QSA、ZAP随机近似以及随机控制与强化学习之间的关系演化等内容的阐述也很有见地,令人耳目一新。此外,本书对控制系统舞台设计的演员-评论家算法架构的阐述也非常生动形象,展现出了自然系统和人文生活系统和谐地构成天然的信息物理交互系统的图景。这对于理解各种算法的由来以及功能大有裨益。控制系统本身也是一类系统,更多强调的是如何协同或协调各要素之间的关系,以使得所设计的系统满足预期的设定要求。这一点与生产力的本意相似,生产力是通过生产要素的组合运用提供产品和服务的能力。协调各要素之间的关系涉及要素变量的选取和甄别、不同要素之间的权重组合以及这些组合的适应性和可扩展性等。扩大应用先进和新型生产要素是控制系统持续健康发展的动力之源,只有进一步提高全要素生产率,建立起更高水平、更可持续的产业竞争新优势,才能创造出更多控制策略或智能算法。如果仅基于对稳定性的分析考虑控制系统,那么该主题属于经典控制理论范畴(包括频域法和时域法的基础理论);如果再增加相应的控制性能指标和实时性,就发展成了解决较复杂过程的高级控制理论和技术;再考虑环境和对象模型的双边不确定性,特别是对象规模、性能指标和边界约束的增加,就使得控制策略从定常到时变、从鲁棒到自适应、从固定策略到学习策略、从最优到近似最优、从单一情境到复杂多情境的再生等,这一切既体现了认知的与时俱进、解决时代问题的前沿性,也体现了控制理论从物理底层的局部回路调节演化到与应用层和管理层通过网络层实现半全局乃至全局的统筹规划和运筹帷幄,是逐渐从“硬件在回路”向“算法在回路”和“人在回路”的策略转变,更加体现了人的能动性在整个控制系统或管理系统中的作用。控制与学习的发展是随着研究对象的变化而变化的,经典的控制仅利用对象模型自身相关的确定信息来组成要素调节策略,而学习不仅要利用与对象自身相关的确定信息,还要在设计的预期目标中考虑某些人为因素的投影,在适应性和处理不确定性方面具有更大的自由度,从而能够将这种学习模式迁移出去,体现出一种嵌入的能动性或使能性。以上这些是我对控制系统与强化学习这个主题的一些认识和理解,希望能为阅读本书的读者提供一个不一样的“入门体验”。本书的翻译分工如下:王秋富负责第1~5章以及前言和附录的翻译,葛伊阳负责第6~10章的翻译,王占山负责对全书译文进行审校。考虑到译者在控制系统,特别是强化学习方面的知识有限,以及原著语境口语化的特点,书中的翻译可能存在纰漏和不足之处,敬请读者批评指正。此外,感谢机械工业出版社编辑的及时沟通和努力合作,以及东北大学刘秀翀博士在我的讨论班上对控制科学、智能科学以及哲学等方面给出的中肯见解和意见。王占山2024年8月于东北大学南湖校区前言在2020年春季学期,笔者正在教授随机控制课程,该课程的最后几周通常专注于强化学习(RL)主题。整个学期,笔者都在思考今年晚些时候要开设的强化学习专题课程:计划在巴黎和柏林开设的两个夏季课程,以及作为Simons(西蒙斯)研究所强化学习项目的一部分安排的另一门课程。2020年秋季课程的视频和幻灯片现已公布在https://simons.berkeley.edu/programs/rl20网站上。DPLP即dynamic programming linear programming,动态规划的线性规划。——译者注春季学期结束后不久,笔者收到了剑桥大学出版社编辑Diana Gillooly的邮件。她写道:“有人提到你计划讲授关于强化学习的课程”,并问笔者是否有兴趣写一本关于这个主题的书。正是她这封简短的电子邮件推动了本书的诞生。当然,本书的历史其实更加悠久——本书是笔者结合十多年来准备的讲义,以及更长时间以来积累的零散资料而最终写成的。此外,笔者向Simons研究所RL项目的联合组织者承诺,笔者将为初学者提供一门不需要大量数学背景的速成课程。笔者也保证,要写一本面向高年级本科生和研究生的可读性较强的书。疫情引发了笔者的这些思考,使笔者觉得有必要阐明两个主题:(i)在控制系统文献中,有动态规划技术可以近似强化学习中出现的Q函数。特别是,这个“价值函数”是一个简单凸规划的解(一个例子就是式(3.36)中阐释的“DPLP”)。强化学习中的许多算法都是为近似相同的函数而设计的,但都是基于求根问题,除了一些非常特殊的情况外,这些问题往往难以被充分理解。这只是需要在控制和RL之间建立更好的沟通桥梁的一个例子。笔者不能声称这座桥已经完全建成,但笔者希望这本书能够基于不同学科的见解为未来的研究发现提供线索。(ii)随机近似(SA)是分析递归算法最常用的方法。这种方法通常被称为常微分方程(ODE)方法\\[136,229,301,357\\]。在沃特金斯(Watkins)引入Q学习\\[169,352\\]后不久,人们认识到了RL和SA之间的关系。在过去的十年里,用于分析优化算法的ODE方法变得越来越复杂\\[198,318,335,375\\]。相关的ODE方法是统计力学、遗传学、流行病学(例如SIR模型)甚至投票的标准建模框架的一部分\\[24,122,225,276\\]。本书将采用反向的叙述方式:书中的每个算法都从一个理想的ODE开始,它被视为算法设计的“第一步”,而不是简单地将ODE视为一种分析工具。笔者相信这为算法综合和分析提供了更好的见解。然而,使用SA来证明这种方法的合理性是高度技术性的,特别地,最近的学位论文和相关著述\\[107,110\\](建立在类似的叙述之上)对随机过程理论的应用背景进行了假设。在本书中,我们正式宣称:只要你愿意使用正弦曲线或其他确定性探测信号而不是随机过程,随机近似就没有本质上的随机性。第4章和第5章所研究的ODE方法就没有提及概率论。这是笔者的第三本书,和前两本书一样,笔者也是基于新的发现才写成这本书的。在研究主题(i)时,笔者和同事Prashant Mehta发现,通过借鉴目前流行的批处理RL概念,凸Q学习可以变得更加实用。这个发现促使笔者开始研究新的课题\\[246,247\\]以及开展与Gergely Neu的新合作。你们会在第3章和第5章中找到这些论文的文本和方程。第4章主要讨论ODE方法和准随机近似方面的内容,该章建立在文献\\[40,41\\]的基础之上。在2020年夏天,笔者将所有这些材料整合起来,并就这些算法的收敛性和收敛速率创建了一个完整的理论,以更好地理解这些算法在RL的无梯度优化和策略梯度技术中的应用\\[8587\\]。本书的第二部分涉及Q学习的Zap Zero(快速调零),以及对演员-评论家方法收敛速度的深刻见解等内容。每章末的“注记”概述了各章主要结论的起源。许多刚接触强化学习的人可能会失望地发现,本书中的理论和算法与大众媒体描绘的“美好景象”相距甚远:强化学习通常被描述为一个在物理环境中互动的“智能体”,并随着经验的积累而趋于成熟。不幸的是,考虑到当今的技术水平,除了在线广告等非常特殊的场景外,“从零开始进行控制”的过程不太可能成功。但是本书的基调完全不同:我们提出了一个最优控制问题,并展示了如何在设计探索策略和调整规则的基础上获得近似解。这不是笔者的怪癖,而是一种有严格要求的、被广泛接受的方法,可以推导出强化学习的所有标准方法。特别是沃特金斯的Q学习算法及其扩展被设计用于求解或近似20世纪50年代引入的“动态规划”方程。这个领域还很年轻,它的未来可能就像你在读这篇前言之前所设想的那样。希望在不久的将来,我们能发现RL的新范式,也许我们可以从智慧生物那里获得灵感,而不是从20世纪的最优方程中获得灵感。笔者相信,如果没有最优控制范式的束缚,本书提及的基本原理在未来仍将很有价值!致谢一切要从30年前说起。20世纪90年代中期,笔者(象征性地)中了彩票:一笔Fulbright奖学金。我带着全家,包括我年幼的女儿Sydney和Sophie,来到了印度的班加罗尔。与Vivek Borkar在印度科学研究所(IISc)工作的9个月是我们富有成效的合作和长期友谊的开始。本书后半部分的几乎每一页的文字背后都有Vivek的影响和参与。当Ben Van Roy在麻省理工学院(MIT)完成他的学位论文研究时,笔者也有幸与他进行了互动。他和John Tsitsiklis的合作绝对是一项壮举,本书的许多方面都借鉴了他早期的强化学习(RL)研究。他目前的研究也可能会产生类似的长期影响。Prashant Mehta曾对笔者说:“我知道你是怎么做到的了!你周围都是了不起的人!”了不起是对的,而他就处在了不起的最顶端。本书是与Vivek、Prashant和许多其他人(包括Ana BuiBui!、KenDuffy、PeterGlynn、IoannisKontoyiannis、EricMoulines),以及联合技术研究中心的许多老朋友(包括AmitSurana和GeorgeMathew)合作的产物。笔者的博士指导老师PeterCaines是笔者的第一位同事,也是笔者目前所遇到过的最好的同事之一,他热情地支持笔者的马尔可夫链理论研究,这为笔者在澳大利亚国立大学攻读博士后期间与RichardTweedie的合作奠定了基础。这些人都很了不起,所有人都会认同这一点!对笔者的研究产生影响的一位优秀青年学者是ShuhangChen,他是文献[88](关于更精细ODE方法的论文)的主要作者。非常感谢在读研究生FanLu对本书早期草稿提出的意见和在数值实验方面提供的帮助。PrabirBarooah帮助笔者从伊利诺伊大学迁至佛罗里达大学生活。笔者从与其互动以及与他的学生(包括NarenRaman和AustinCoffman)的互动中受益匪浅。MaxRaginsky帮助笔者收集和整理了一些笔者平时不太关注的文献。他的建议以及Polyak最近的论文[136]帮助我了解了苏联学者在RL和SA方面的早期贡献。MaxRaginsky的研究也给了笔者灵感:虽然本书中的许多地方都有对他研究成果的引用,但他的这些研究成果中的大部分内容都更适用于学术专著。第2章和第3章的大部分内容都是基于伊利诺伊大学决策与控制实验室开设的状态空间控制课程写成的。非常感谢BillPerkins、TamerBasar和MaxRaginsky,感谢他们允许笔者使用文献[29]中的相关材料,还要感谢负责创新控制实验设计的实验室主任DanielBlock。2018年,笔者有幸在美国国家可再生能源实验室(NREL)度过了几个月,在自主能源系统实验室进行了研究。这些交流的一个成果就是促使笔者开展有关随机近似的研究,并发表了多篇文章[40,41,85-87,93]。如果没有在NREL与AndreyBernstein、MarcelloColombino、EmilianoDallAnese以及笔者以前的研究生YueChen的合作,就不会有现在的这本书。在回顾第4章关于极值搜索控制的文献时,笔者对研究文献中普遍认为这一想法始于20世纪20年代的说法持怀疑态度。这段历史中最令人信服的案例是在文献[348]中提出的。笔者联系了合著者IvenMareels,他向笔者保证了这段历史的准确性。然后,在法国同事的帮助下,笔者找到并翻译了1922年的文献[217],该文献被认为是这种优化技术的来源。FrankLewis是RL和控制理论交叉领域最伟大的“桥梁建设者”之一,他主导了关于这些主题的几本论文集的创作。10年前,当他想到笔者并促成投稿时[165],笔者感到很惊讶,而10年后他邀请笔者为新书投稿时[110],笔者非常高兴地接受了。直到最近,笔者一直认为RL是一种爱好,是复杂系统(如网络[254])简化模型的动力,也是教授控制理论的工具。随着AdithyaDevraj来到佛罗里达大学,笔者的认识发生了变化,他和笔者一起攻读研究生,直到2020年春毕业后他去了斯坦福大学。他的好奇心和智慧在很多方面都给了我灵感,尤其是驱使笔者更多地了解了RL在过去十年中的演变。本书第二部分的许多数据和理论都来源于他的学位论文[107],他还对本书中许多部分提出了改进建议。笔者欠西蒙斯学院一笔很大的人情。2018年春天,笔者作为实时决策项目的长期访问学者,有幸与AnaBui!和AdithyaDevraj开展合作。我们从其他的访问学者和PeterBartlett(以及其他当地学者)那里学到了很多。我们当时的讨论推动了2020年的RL项目,该项目Ⅸ 提供了一个关于该主题各个方面的大型速成课程,并着重强调了笔者试图通过本书进行探讨的那种桥梁建设。2020年秋天,就在完成关于这个主题的第10章之前,笔者观看了关于最近演员-评论家技巧的教程。本书受益于GergelyNeu、CiaraPikeBurke以及CsabaSzepesvri组织的强化学习虚拟研讨会系列,该系列也受到了西蒙斯2020年RL项目的启发。回到现在:2021年春天,笔者在本书第一部分的基础上开设了一门新课程。许多学生都渴望参与控制系统和RL的简易入门学习,好在这些学生都挺过了困难重重的三个月。笔者很感激这学期收到的所有反馈,并且会尽力做出回应。感谢ArielleStevens,他纠正了前三章中许多表述不清晰的段落,并提出使用灰色方框来突出重要的概念。为了回应其他学生(包括CalebBowyer、BoChen、AustinCoffman、ChetanDhulipalla、WeihanShen、ZetongXuan、KeiTaiYu和YongxuZhang)的意见,我们做出了更多改进。这份名单上还有最近毕业的BobMoye博士以及与笔者一起进行RL和相关课题研究的在读研究生:MarioBaquedanoAguilar、CaioLauand和AminMoradi。2021年8月在Twitter(现X)上发布草稿后不久,笔者还收到了在读博士生VektorDewanto的大量反馈。当然,笔者不会忘记自己的资助者。美国空军科学研究办公室(AFOSR)的BobBonneau资助了笔者和PrashantMehta在Q学习、平均场博弈和非线性滤波方面的早期研究。美国陆军研究办公室的DeryaCansever和PurushIyer资助了更多相关主题的研究。美国国家科学基金会(NSF)资助了笔者最抽象、看似毫无价值的一些研究课题,希望这些课题能带来一些有价值的东西。笔者在NSF最可靠的盟友是Radhakisan(Kishan)Baheti,他为笔者的第一笔资助提供了资金(开始于20世纪90年代初的自适应控制课题)。Baheti是一位出色的导师,他始终对潜在的愚蠢想法保持着警觉,同时也懂得如何从那些新的、看似无用的研究方向中获得启发。他知道控制界中的每个人都在做什么!他还通过他的马拉松长跑以及对瑜伽的精通激励着我们所有人。肖恩·梅恩2021年8月1日

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.