一、一类并行机器系统的最优控制的分析(论文文献综述)
赵毓[1](2021)在《多智能体系统自主规避任务决策方法研究》文中指出随着航空航天事业的高速发展,越来越多的飞行器采用群体或多体协同的方式执行任务,呈现出典型的多智能体特征,适于使用多智能体理论对其进行分析和建模,对分布式自主决策技术的需求日益突出。飞行器自主规避是确保其安全性最直接有效的方法,但是当前对相关技术的研究多是基于静态全局规划算法,难以满足动态场景中多实体间实时协同需求。为了解决多实体协同规避问题,本文引用多智能体系统思想对其进行规避任务决策技术研究。多智能体系统有着自主、高效和可扩展的优点,本文将其与强化学习技术相结合,用以设计飞行器决策算法。本文以航天器反拦截、无人机避碰和空间机械臂轨迹规划等典型任务为研究背景,对多智能体自主规避任务决策问题进行研究,结合真实约束条件,实现智能体的实时决策。本文取得主要研究成果如下:在运动分析基础上给出智能体与环境交互的数学模型。针对多智能体系统规避决策问题,建立部分可观马尔科夫决策模型,考虑部分可观的约束条件,结合博弈理论研究了多智能体马尔科夫博弈问题,分析常规回报函数的设计方法,并给出了求解序列决策的三种典型方式。在多智能体强化学习方面,分析了航天器规避机动场景和空间机械臂捕捉场景的决策流程;将策略梯度方法向多智能体系统进行改进研究;提出一种基于策略协调和信度分配的Actor-Critic强化学习方法,用于解决全局可观条件下决策器的训练和策略提升问题,并给出相关收敛性分析;根据任务需求设计各关键环节的神经网络结构和算法流程。分别在航天器反拦截和空间机械臂避障规划等多种任务场景中进行了强化学习训练,通过对累积回报值和成功率的结果对比分析验证了所提方法的正确性和有效性。在强化学习算法应用方面,分析典型任务场景对决策效率的约束情况;针对问题场景设计了进行任务决策的神经网络结构,并对其不同部分设计压缩方法;在神经网络权值聚类和量化的基础上,提出一种自适应分层重构剪枝方法,该方法以重训练的方式对目标神经网络进行动态剪枝和压缩,用于提高决策器运行速度,并压缩其存储空间;对部分可观条件下的任务场景进行强化学习系统设计,详细给出了回报函数的设计方法。分别在有限空域大量无人机场景和多航天器反拦截场景对提出方法进行仿真验证,从决策运行速度、累计回报值和成功率等方面对算法性能进行分析和讨论,并验证了所提强化学习方法对实体数量可变环境的适应性。在任务环境稀疏奖励问题上,对任务场景约束和常规强化学习算法局限性进行分析,设计了案例评价机制;提出逆值法强化学习算法,解决了奖励延迟分配和无奖励引导系统学习效率低的问题;基于马尔科夫博弈理论设计了自学习系统,并结合启发式搜索思想分析了所提算法的收敛性;分析了有扰动状态输入情况,并设计了用于对比分析的有限状态机;分析了算法优势和改进方向。在仿真验证中与前文章节训练所得决策器进行了对比分析,验证了所提算法的正确性和相关性能优势。本文对多智能体决策技术进行探索,研究了信度分配、策略协调、执行提速和稀疏奖励等重要方向,提高了航空航天硬件设备在执行任务中的存活率,所得研究成果对航空航天安全保障技术的发展具有一定的参考价值。
程一帆[2](2021)在《AMT换挡过程驾驶品质提升与电控系统开发研究》文中研究指明电控机械式自动变速箱(Automated Manual Transmission,AMT)一般采用传统的机械齿轮组结构,配合由自动离合器和自动选换挡装置组成的自动换挡系统,兼顾了传动效率高、制造成本低、尺寸与重量小等天然优势。但与其他类型的自动变速器相比,由于AMT取消了柔性传动器件,使得没有油膜缓冲的干式离合器在动力切换过程中起到决定性作用,外加动力切换过程本身就存在诸多不确定因素(离合器摩擦、外界时变环境参数等),因此动力切换过程驾乘体验较差、驾驶品质难以控制。然而,汽车的驾驶品质是评价汽车性能的重要指标之一,其能够反映汽车驱动力传递路线的动态性能——平顺性。为了解决AMT车辆难以保证驾驶品质控制效果一致性的行业难题,如何在保证装配AMT车辆的动力性、经济性和满足排放条件基础上提高换挡品质,是一个值得深入研究的重要课题。提升AMT换挡品质的重要方法之一是开发机电配合的电控系统并优化其控制效果,然而,电动化、智能化、网联化进程的不断推进对当前汽车电控系统提出了更高的要求。传统开发的AMT控制系统大多采用基于规则的前馈map+反馈PID控制器方式,简单易实施但却增加了实车试验的标定工作量,使得当前产品级的自动变速箱控制软件的代码量已经超越了工程师可操作极限。另外,车辆这一控制系统具有环境工况复杂、多控制输入、强耦合等特点,同时具有目标多样性(燃油经济性、排放性、动力性和舒适性等)和运行工况多样性(车辆起步、换挡、极限工况等)的特点,对于上述基于规则的控制方式来说,特定工况下的标定控制参数无法实现换挡品质在全工况下的最优,尤其是瞬态工况。针对这一问题,在基于模型的车辆控制系统设计方式中,加入通过具体动力学问题设计控制器的环节是一个较好的解决方案,不仅可以保证瞬态工况控制性能,还可以避免针对不同工况下繁杂的控制参数标定工作。针对上述问题,本文依托国家自然基金优秀青年项目(项目编号:61522307),吉林省科技厅-中青年科技创新领军人才及团队项目(项目编号:20200301011RQ)和吉林大学-本科教学改革项目(编号2019XYB161),开展了AMT换挡过程的驾驶品质提升及其电控系统开发的研究。针对离合器滑磨关键问题,设计了“系统扰动估计+扰动系统最优控制”的抗扰最优控制律和对离合器滑磨阶段与驱动力矩恢复阶段进行并行控制的换挡策略;提出了包含显式抗扰控制律设计、虚拟标定工具开发、快速原型路试验证等内容的开发流程;提升了任意换挡工况下的滑磨功/冲击度综合性能和工程应用层面的标定工作;实现了先进控制理论在汽车电控系统开发中的工程化应用。本文的主要研究内容如下:(1)基于显式控制律设计的电控系统开发流程通过分析整车企业普遍采用的离合器结合规律(基于规则的“快-慢-快”结合规律)、控制方法(基于前馈map+反馈PI控制器)和传统开发流程,提炼其共性开发缺陷,提出基于模型的AMT电控系统正向开发流程,该开发流程特点是在控制器设计环节加入可提升换挡品质的显式控制律,最终与传统开发流程进行对比,结果显示该开发流程从设计思路、验证环节、控制效果和技术维护等方面均优于传统开发流程。(2)抗扰最优显式控制律与换挡并行控制策略设计一方面,通过对AMT换挡过程性能评价指标和控制目标的分析,将面向控制的传动系统数学模型简化为“二质量”模型并整理为状态空间方程形式,基于目标函数和最优控制问题的极大值原理,引入新形式的拉格朗日乘子函数,推导出抗扰最优显式控制律,同时设计可利用极点配置进行收敛调节的扰动观测器。另一方面,通过分析AMT升、降挡过程的动力学阶段,提出可兼顾升降挡驾驶品质和换挡时间的“离合器滑磨阶段”与“驱动力矩恢复阶段”并行控制换挡策略。(3)可工程化应用的虚拟标定工具开发考虑到传统标定过程中涉及的时间成本和人力物力成本非常巨大,基于将控制算法“工具化”的思想,利用软件在环技术设计了可视化的虚拟标定工具,并在附录中详细介绍了所利用的MATLAB/GUI模块、工具的初始界面分布与工具的功能实现流程,可实现将部分或者全部的实车/测试平台标定工作转移到计算机虚拟端,大大减少实车层面的标定工作量,弥补了研究人员和开发人员之间的断层。(4)联合仿真与实车试验验证与分析对于提出的抗扰控制律和换挡控制策略,本文采用多方位验证手段:基于MATLAB/Simulink+AMESim的软件在环联合仿真、基于d SPACE Micro Auto Box的快速原型实车试验、基于车载级控制单元Rapid ECU-U2M的系统集成真实道路试验。同时,为了突出提出方法的抗扰性能,仿真与试验工况选择了名义工况、扰动工况和真实道路驾驶工况,测试结果表明:提出的开发方式从试验实时性、控制效果、标定成本等多方面均具有优势。
金成[3](2021)在《时滞系统最优控制问题的多重打靶式高效求解算法》文中进行了进一步梳理为了将模型预测控制推广到快动态系统,计算高效、资源需求量小的最优控制求解算法设计是亟待解决的关键问题。并行化、敏感性更新、模型降维这些传统的策略都被应用于最优控制求解过程的加速。然而,已有的最优控制快速求解算法大多忽略系统中存在的时滞,而时滞广泛存在于生物系统、化学反应、反馈环、通讯网络等现实系统。基于这样的背景,本文设计了一种可并行、易实现的时滞系统最优控制问题的高效求解算法,并详细探讨了其软件实现,希望为模型预测控制向快动态时滞系统的应用推广提供一些关键技术。首先,本文针对具有状态时滞和控制时滞的非线性时变系统,设计了一种服务于梯度优化的函数求值与梯度计算的并行多重打靶算法。通过采用隐式的连续龙格-库塔积分器,取消了积分步长小于最小时滞的限制,避免了过于密集的时间网格。同时,引入预测-修正策略减少牛顿迭代的步数,提高计算效率。基于隐函数定理与内数值微分技术,设计了一种无需附加牛顿迭代的梯度计算方法。在前向仿真上,引入多重打靶策略将仿真和梯度计算过程拆分成独立的子过程,并通过多线程程序设计实现。数值实验表明,最优控制的求解效率得到了显着提高。在前面的算法中,雅可比矩阵的计算是十分复杂且耗时的。为了降低计算量,在采用预测-修正策略减少牛顿迭代步数的基础上,本文还尝试了采用近似雅可比矩阵的策略。这种技术通过重用已有的雅可比矩阵,减少雅可比矩阵的计算次数来加速求解过程。数值实验表明,这种近似雅可比矩阵的策略能够以最优性的少量牺牲换来计算效率的大幅提升。本文将所提出的多重打靶算法与非线性规划求解器Ipopt相结合,并利用多线程编程技术,设计实现了非线性时滞系统最优控制的快速求解器,数值实验表明相比序列式算法该并行算法可以显着提高计算效率。
吴承伟[4](2021)在《恶意攻击情形下信息物理系统的安全控制研究》文中研究说明信息物理系统融合并发展了现有的通信、无线网络、分布式、人工智能等技术,构建了物理空间与信息空间中人、机、物、环境、信息等要素的相互映射、适时交互、高效协同,成为集计算、通信与控制于一体的新一代智能系统。作为智能制造的核心,信息物理系统的发展已受到世界各国的重视,如“美国竞争力计划”,欧盟的“ARTEMIS”项目等。我们党和政府也高度重视信息物理系统的发展。党的十九大报告和2018年两会精神均强调要促进信息物理系统人工智能行业产、学、研、用的交流与合作。近年来,网络攻击事件频发,对国家安全、经济发展、基础设施安全、人民生命财产造成了极大威胁,这使得如何保证信息物理系统的安全成为亟待解决的重大问题。为促使该类问题的解决,国家自然科学基金委增加了信息物理系统相关科研项目的立项,科技部也立项了信息物理系统安全相关的国家重点研发计划。虽然信息物理系统安全问题的研究不断取得突破,但是仅仅依靠单一学科知识,如控制学科、计算机科学学科或者网络信息安全学科技术进行信息物理系统安全设计的不足日益凸显。如何融合多学科技术手段解决信息物理系统的安全问题已成为亟待解决的重要问题。围绕信息物理系统安全问题研究中的难点以及关键科学问题,本文结合控制理论(滑模控制、最优控制等)、机器学习(深度强化学习)、信息论(信息熵)以及博弈论(零和博弈)、网络信息安全(移动目标防御)等多学科技术手段,研究如何应对恶意网络攻击、设计智能安全控制算法保证信息物理系统安全的问题。论文具体内容以及研究方法概述如下。1.第二章研究信息物理系统中传感器受到恶意拒绝服务攻击时安全控制器设计问题。拒绝服务攻击能够造成数据丢失。本章引入拒绝服务攻击驻留时间和拒绝服务攻击频率概念描述攻击行为。根据攻击的不同效果,即拒绝服务攻击是否成功,本章将描述物理进程动态的系统方程描述为切换形式。进而设计了一种安全滑模控制器保证系统指数稳定。为保证描述攻击行为的模型有效性,本章将系统防御者和攻击者在零和博弈框架下进行建模,基于零和博弈设计了一种有效的混合防御机制。在该防御机制下,提出了一种基于防御机制的安全滑模控制设计方法。基于该方法,在拒绝服务攻击情形下,信息物理系统依然可以保证预期性能。与已有结果相比,本章节的方法主要具有两方面的优势。首先,本章节根据攻击效果将物理系统建模为切换系统,进而利用类似于平均驻留时间的方法解决了系统稳定性分析与安全控制器设计问题。其次,本章节引入零和博弈对防御者和攻击者建模,并设计了防御策略,保证了攻击模型的有效性。2.第三章研究信息物理系统的安全跟踪控制问题。在设计过程中考虑控制中心到执行器端的通讯网络受到拒绝服务攻击,该攻击能够造成网络拥塞,进而阻止控制信号传输给执行器。本章节主要目的是如何在系统模型信息完全未知情形下设计最优跟踪控制器,并分析拒绝服务攻击对跟踪性能造成的影响。首先,基于给定的物理对象的系统结构以及跟踪信号模型构造物理对象与参考模型的增广系统,进而采用动态规划技术推导该增广模型的黎卡提方程。其次,分析了拒绝服务攻击概率对跟踪性能的影响,给出了拒绝服务攻击的临界条件,超出该条件约束范围则无法设计最优跟踪控制器,系统跟踪性能无法保证。第三,为解决无模型情形下的跟踪控制设计问题,本章引入强化学习方法设计跟踪控制器。3.第四章研究在执行器虚假数据注入攻击情形下信息物理系统基于零和博弈的安全控制器设计问题。对于物理层中的物理对象,本章假设其动态方程可由一个线性时不变离散模型描述。设计过程中考虑过程噪声和测量噪声对控制器设计的影响。引入卡尔曼滤波估计物理对象的系统状态。本章首先将系统防御方和攻击者描述为零和博弈中的两个玩家,进而在零和博弈框架下给出了最优的二次型成本函数。通过使用动态规划方法,本章给出了最优攻击策略下最优控制策略设计准则,并证明了该策略可以保证系统性能且成本函数有界。此外,本章给出了攻击概率的临界值,超出这个临界值则成本函数的有界性以及物理对象的稳定性无法保证。4.第五章研究执行器虚假数据攻击情形下信息物理系统的主动防御控制问题。基于移动目标防御机制以及强化学习方法,本章提出了一种新颖的主动被动混合防御控制设计方案。首先,本章将系统(A,B)描述为一系列包含可控子系统(A,Bl)的切换模型,进而基于该切换模型设计移动目标防御机制。基于移动目标防御机制,随机选择子系统(A,Bl)设计控制策略用于控制整个系统,进而阻止攻击者的有效攻击。其次,本章设计攻击诊断以及攻击分离机制用于精确定位受攻击执行机构,进而将受攻击的执行机构从移动目标防御机制中排除。第三,基于强化学习方法和零和博弈理论设计了被动安全控制算法以应对无可控制子模型可更新的极端情形。进而基于上述设计,提出了主动、被动混合的防御控制算法,保证受控系统在极端攻击情形下能够有效缓解攻击影响,维持系统性能。5.第六章研究信息物理系统执行器虚假数据注入攻击情形下基于深度强化学习的安全控制问题。本章节将受攻击情形下的信息物理系统动态方程描述为一个马尔科夫决策过程。基于建立的马尔科夫过程,将虚假数据注入攻击情形下的信息物理系统安全控制问题转化为仅使用数据的决策学习问题。参照当前最新的柔性actor-critic强化学习算法,本文提出了一种基于李雅普诺夫函数的柔性actor-critic强化学习算法,基于该算法离线训练深度神经网络,进而获得安全控制策略。本章节不仅证明了提出的深度强化学习算法的收敛性,而且解决了系统使用强化学习获得的策略时的稳定性分析问题,给出了稳定性证明。此外,本章节在设计过程中完全基于数据,所设计的安全控制算法对不确定性、外部扰动等因素具有强鲁棒性。
王远大[5](2020)在《机器人深度强化学习控制方法研究》文中认为强化学习是一种以试错机制与环境进行交互,通过最大化累计奖赏的方式来优化策略的机器学习方法,在解决无模型的控制和决策问题上具有很好的效果。近年来,随着深度学习的快速发展和计算能力的提升,研究人员将深度神经网络强大的特征提取和表示能力与强化学习的决策和控制能力相结合,提出了深度强化学习方法。这类算法给机器人控制领域的动力学建模、环境感知以及多机器人协同等难题带来了新的解决思路。基于深度强化学习的控制方法不需要事先建立被控机器人的精确数学模型,而是直接在与被控机器人的交互过程中对控制策略进行在线优化。通过训练深度神经网络,可以在高维的原始传感数据中提取关键信息并用于决策和控制,最终构成从原始传感数据到系统控制输入的端到端的机器人学习与控制方法。在多机器人协同问题上使用多智能体强化学习算法能够使多个机器人在相互通信和与外界环境交互中构建协同控制策略,从而合作完成任务。尽管基于强化学习的控制方法在理论上具有上述种种优势,但是在实际的机器人控制应用中则会面临各种问题。例如在学习过程中如何保证被控对象的安全稳定;如何根据任务需求设计合理的算法结构;如何在有限的通信资源下构建合作策略等等。本文在现有的深度强化学习算法基础上,面向移动机器人的运动控制、导航避障以及协同合作三方面的问题,结合实际应用场景展开研究,为基于深度强化学习的机器人控制问题提供了一定的理论指导和技术支撑。本文的主要贡献如下:(1)提出了一种带积分补偿的确定性策略梯度算法,解决了四旋翼无人机在精确动力学模型未知情况下的运动控制问题。针对四旋翼无人机欠驱动、非线性、不稳定的动态特性,以及精确运动学模型难以构建的问题,基于深度确定性策略梯度算法,使用深度神经网络构建从无人机状态参数到电机控制量之间的映射,并根据设计的奖励函数对网络参数进行更新。针对原始深度强化学习算法在控制应用中被控状态存在稳态误差问题,引入了积分补偿机制,并改进了训练算法,通过迭代学习最终可以获得精度更高的控制策略。另外,对于深度强化学习的控制方法在实际应用中的安全性问题,提出了一种两段式训练算法。通过离线阶段的训练得到鲁棒性较强的控制器,然后通过在线阶段在离线控制器的基础上对参数进行微调,进一步提高控制器的性能。在高精度四旋翼仿真环境中的实验结果表明提出的深度强化学习方法在没有四旋翼精确的动态模型的情况下,通过提出的学习算法能够获得动态性能良好且对各类干扰具有较强鲁棒性的运动控制器。(2)提出了一种模块化深度强化学习算法,解决了地面移动机器人在复杂未知环境下使用二维激光雷达躲避移动障碍物并前往指定位置的问题。现有的机器人避障和路径规划方法通常在已知环境下进行,而在未知或动态的环境下则存在较大难度。首先,基于深度Q-学习提出了一种避障控制方法。针对环境中移动物体的激光雷达信息特征提取问题,提出了一种新型的双流Q网络结构,将移动物体的运动信息融合到机器人的观测状态中,实现了机器人对动态环境更加全面的观测。然后,分别应对局部避障问题和全局导航问题,设计了独立的强化学习模块并进行预训练,通过引入动作调度机制,将预训练得到的导航和避障策略进行在线融合。模拟环境中的实验结果表明提出的导航和避障策略相比于常规的深度强化学习方法和传统的机器人控制方法在学习速率和导航避障效果方面均具有明显优势。(3)提出了一种基于多智能体强化学习的多机器人协同控制方法,解决了多个移动机器人对单个目标进行合作围捕的问题。在单个智能体深度强化学习算法的基础之上,引入了基于学习的通信机制和集中式训练-分布式执行的算法结构,使每个追捕机器人在与其队友和目标的交互过程中进行在线学习。该方法可以在外部环境信息和追逃双方动态信息均未知的情况下解决多追捕者合作追捕的问题。针对现有的多智能体强化学习算法中使用广播通信方式带来的通信和计算量大、实现成本高等问题,设计了简单的环形拓扑和主从式线形拓扑两种通信网络结构,并给出了相应的多智能体强化学习训练算法。实验结果表明了所提出的方法在更少的通信量和计算量的前提下,获得了比其他多种多智能体强化学习方法更好的围捕效果。(4)提出了一套用于无人机-无人艇协同海上侦察任务的图像处理和运动控制方法。首先给出了一种基于深度卷积神经网络和空间softmax的图像目标定位和角度估计算法,可以通过无人机航拍图像获取海上无人艇和侦察目标的位置和姿态。然后,针对海浪干扰下的无人艇控制问题,引入了基于双延迟深度确定性策略梯度的深度强化学习算法,通过模拟训练获得高效的控制策略,使得无人艇能够根据无人机提供的位置和姿态信息,快速接近海上目标并在其周围进行侦察。最后,针对无人机在风浪干扰下的自主着艇问题,在第一项研究内容提出的四旋翼无人机控制方法的基础上,提出了一套无人机安全着艇控制流程,使无人机在面临干扰和风险时能够及时脱离危险状态,保障着艇安全。通过无人机艇协同仿真平台上的测试,验证了提出了无人机艇协同侦察和自主着艇控制方法的有效性和安全性。
林嘉奖[6](2020)在《混杂参数系统的动态优化 ——以催化裂化装置为例》文中指出为了应对日益剧烈的市场竞争,化工企业必须同时优化各个决策层的所有决策变量来寻找潜在的经济效益,比如设备调度和动态优化等。集成优化已经成为提高经济效益的重要手段。混杂参数系统是带有批次操作的连续过程的数学模型,混杂参数动态优化问题则是连续操作和批次操作集成优化问题的数学模型。本文系统地解决了混杂参数动态优化问题的四个子问题,即动态建模、最优性条件、数值解法和闭环实现框架。连续过程的优化一般指的是稳态模型操作点的优化,即在满足操作约束的前提下优化操作点使经济收益最大化。但是由于批次操作的重复执行,使得连续过程变得很像批次过程,而且连续操作和批次操作是独立优化的。本文通过机理分析,考虑定量添加CO助燃剂对CO燃烧的影响,建立了催化裂化装置的完整动态数学模型,通过灵敏性分析说明了连续操作和批次操作集成优化的必要性。接下来将连续操作和批次操作的集成优化问题抽象为混杂参数系统的动态优化问题。混杂参数系统是一类特殊的混杂系统,它的子系统由状态模型的参数表示。这个参数是批次操作的数学表示。然后给出并证明了该集成优化问题的最优性条件,混杂参数极小值原理。与混杂极小值原理不同的是,由于参数空间的连续性使得混杂参数极小值原理只需要给定切换次数,而不需要给定切换序列。另外,因为混杂参数动态优化问题需要提供全局信息,所以最优性原理对该问题不成立。虽然得到了混杂参数动态优化问题的最优性条件,但是由于实际问题太过复杂,实际上只能用数值方法求解。本文给出了两种求解混杂参数动态优化问题的数值解法。因为批次操作可以由本身参数化,所以第一种方法是自适应控制向量参数化方法,即同时参数化连续操作和批次操作的方法。虽然该方法较为简单,但是由混杂参数极小值原理可知参数化的过程改变了问题的形式,也改变了问题的最优性条件,因此通常只能得到次优解。而且不能保证自适应方法得到的最优批次操作解序列逼近实际最优批次操作解。另一方面,混杂参数动态优化问题作为一种集成优化问题也具有明显的可分解结构,因此可以用分解算法求解。广义Benders分解算法要求优化问题的凸性成立才能保证收敛到最优解,但是该条件通常不成立,而本文提出并证明的非凸灵敏性广义Benders分解算法则只要求问题的可分拟凸性成立。该算法的主要技巧是引入附加变量和附加等式约束,然后得到一致线性的Benders割。此时非凸性就可以由Benders割的直接操作和最优性条件的检验完成,而不用构造代理模型;对于不可行点,需要求解两个不可行子问题以生成新可行点和复杂变量可行域的支撑超平面。另外,该算法的主问题总是线性规划问题且该算法的解中还包含了关于复杂变量的灵敏性信息。此时混杂参数动态优化问题的分解算法可以描述为:首先用控制向量参数化方法参数化连续操作,然后将批次操作指定为复杂变量,再使用非凸灵敏性广义Benders分解算法求解。数值最优解是开环且次优的,为了在不确定的实际过程中使用,还必须将其闭环化,因此本文给出了针对两种数值解法的两种实现框架。这两种框架均使用跟踪最优性条件法借助于PID控制器实现最优连续操作解。第一种框架的最优批次操作解直接使用,而第二种框架则根据提供的灵敏性信息做一维线搜索,得到了精度更高的最优批次操作解。相比于框架一,框架二能以较粗糙的网格划分得到与自适应向量参数化方法精度相当甚至更好的解。本文基于这两种框架讨论了催化裂化装置5种操作模式下的经济性能。由此说明了连续操作和批次操作的集成优化能在保证系统安全运行的前提下,显着地提高系统的经济性能,且该经济效益主要来自于优化后的连续操作。最后对本文主要研究内容进行了总结,并展望了未来可能的工作。
李岩[7](2020)在《可重构机械臂的快速指数稳定性分析与最优控制方法研究》文中研究指明近年来,随着科学技术的发展与智能制造水平的进步,机器人技术及其应用研究在全球范围内开展得如火如荼。在美国先进制造业国家战略计划、德国工业4.0、中国制造2025、日本机器人新战略、韩国机器人未来战略2022计划中,机器人均作为核心技术受到了前所未有的重视。可重构机械臂是一类特殊的机器人,与传统机械臂不同之处在于其由若干具有独立控制能力和感应能力的模块构成,可根据不同任务要求和现场环境,使内部模块之间产生局部相对移动,变换构形和改变连接方位,从而改变系统整体的结构和功能。凭借鲁棒性强、柔性高、灵活、成本节约等特点,在柔性加工、精微手术、抢险救援、突发疫情等环境作业场景应用时,可重构机械臂具有不可比拟的优势。诸多学者围绕模块设计与构形优化、运动学自动建模与轨迹规划、轨迹跟踪控制以及容错控制等问题开展了研究探索,取得了一系列理论和实践成果。然而,可重构机械臂系统稳定性分析与智能控制理论研究相对滞后于原型机的开发研制,用传统的机器人理论进行分析和设计已满足不了实际工程应用的需求。本文以可重构机械臂为研究对象,主要针对可重构机械臂控制系统快速指数稳定性、最优路径规划、轨迹跟踪控制以及容错控制四个关键问题展开研究,完善以可重构机械臂系统为代表的一类非线性控制系统快速指数稳定性分析理论,形成该类系统快速指数稳定性分析的统一框架,设计最优反馈控制器,实现可重构机械臂工作在低能耗、高效、稳定状态。具体研究内容包括如下几个方面:研究可重构机械臂系统的快速指数稳定性分析方法。稳定性问题是完成一切工作任务的前提,而各种应用场景都不可避免的存在随机或者持续的干扰,针对可重构机械臂系统动力学模型非线性、强耦合等特性,从非线性自治系统快速指数稳定性分析入手,建立快速指数稳定性理论框架。结合Lyapunov稳定性条件和哈密尔顿-雅克比-贝尔曼方程条件,研究以可重构机械臂为代表的一类非线性仿射控制系统快速指数稳定条件,提出可重构机械臂关节周期运动快速指数稳定性判别准则。依据判别准则,设计快速指数稳定控制律,实现可重构机械臂系统实时最优反馈控制。研究可重构机械臂系统的最优路径规划方法。考虑可重构机械臂系统实际运行过程中遇到的复杂环境和实时工况条件,结合模块关节的运动学约束和避障策略,将路径规划问题转化为时变非线性优化问题,以路径最短作为能量消耗准则,提出一种基于归零神经网络的最优路径规划方法。通过构建归零神经网络模型,设计满足任务可达性的目标函数,优化可重构机械臂的安全路径,基于Lyapunov稳定性理论分析了所提出归零神经网络模型的稳定性。进一步研究障碍物随机的非结构环境可重构机械臂路径寻优问题,在保证最低能耗的同时提升可重构机械臂系统任务执行效率以及对工作环境的适应能力。研究可重构机械臂轨迹跟踪控制方法。针对存在不确定性和外部干扰的可重构机械臂轨迹跟踪控制问题,提出一种基于抗干扰估计的PD型加速迭代学习控制方法。将指数变增益引入学习控制律,提高了迭代学习的收敛速率。基于Lyapunov稳定性理论分析可重构机械臂系统渐近稳定性。针对非线性动力学系统渐近收敛的鲁棒稳定性分析问题,提出可重构机械臂周期运动渐近稳定性的判别准则;利用关节力矩传感器获取可重构机械臂系统的各关节力矩信息,结合终端滑模控制思想,提出自适应终端滑模分散控制方法,解决在不使用其它关节信息的情况下,实现可重构机械臂系统单元关节的独立控制。在终端滑模分散控制基础上,针对可重构机械臂摩擦力与交联项引起的模型不确定性,利用径向基神经网络对其进行估计和补偿,加强可重构机械臂系统控制的实时性和强鲁棒性。最后,搭建2-DOF可重构机械臂实验平台,验证PD型加速迭代学习控制方法和分散自适应轨迹跟踪控制方法的可行性与有效性。研究可重构机械臂系统的容错控制方法。针对可重构模块机械臂独立关节故障子系统,建立执行器故障的系统模型,采用自适应神经网络方法对模型的不确定性进行估计,并设计滑模观测器对故障进行跟踪,进而对分散控制律进行重构。制定主动容错控制策略,当系统无故障时,采用名义系统设计分散控制律;当系统检测到故障发生后,迅速切换至基于滑模观测器的容错控制律,减少控制初期先验知识不足对可重构机械臂系统稳定性带来的影响。采用Lyapunov稳定性理论分析可重构机械臂控制系统的稳定性。最后,通过2-DOF可重构机械臂实验平台验证基于滑模观测器的分散主动容错控制方法的可行性与有效性。最后,对全文工作进行总结,并对后续研究工作进行了展望。
毛润[8](2020)在《非完整约束移动机器人运动规划关键技术研究》文中提出随着社会的发展和人口老龄化现象的日益严峻,以及人力成本的不断提高,人们对智能移动机器人的需求越来越迫切。运动规划作为实现移动机器人智能化的关键技术之一,受到了学术界和工业界的广泛关注。目前,在大多数运动规划问题研究中,移动机器人通常被假设为一个无约束质点,而相应的运动规划问题便转化成一个寻找从初始状态到目标状态的无碰状态序列问题。这种方法操作简单、易于求解,并且在工程实践中得到广泛应用。然而,事实上大多数轮式移动机器人都会受到非完整约束影响,从而导致机器人无法跟随任意轨迹进行运动,特别是在高速重载情况下,如果在运动规划中不考虑机器人非完整约束,很可能导致避障不及时和轨迹不可达。因此,为避免上述问题产生,并规划出服从机械系统自然运动规律的轨迹,有必要对系统的非完整约束加以考虑。本文以非完整约束移动机器人为对象,分析了非完整约束的产生机理以及对运动规划问题产生的影响,研究了机器人在静态环境和动态环境中的运动规划求解问题,主要研究内容如下:1.研究了差分式移动机器人(DDMR)的动力学建模方法。根据拉格朗日动力学方程建立了以车体质心为参考点的通用动力学模型,利用拉格朗日乘子为模型引入了非完整约束,对非完整系统在障碍物环境中的可控性问题进行了分析和证明,这给分析非完整系统的运动规划问题提供了理论基础。在运动规划中,以车体质心为参考点的模型相比后轮轴心为参考点的模型将占用更少的空间,相应地可以得到更大的自由空间,是一种更好的参考模型。2.提出一种多区间策略Chebyshev伪谱法的非完整约束移动机器人全局运动规划方法。该方法基于一种多区间策略,将时间区间分割为多个连续子区间,分别利用N阶Chebyshev正交多项式离散特定配点的状态变量和输入变量,非配点处通过插值近似化处理,这样将无限维运动规划问题离散为成有限维非线性规划问题,便于求解。相比单区间策略,多区间策略很大程度解决了障碍物附近配点分布较少导致的插值轨迹与障碍物发生干涉的问题。3.针对基于Net-MPC的多机协同运动规划问题,提出了一种改进非合作分布式网络模型预测控制方法(PB-NC-DMPC)。该方法基于一种新型优先级分配机制,通过对每个机器人当前的避障紧迫性进行量化,在线进行避障优先级分配,最终利用拓扑排序得到一个分层计算序列,有效解决了时变耦合关系的多机协同运动规划中存在的预测连续性问题和随机优先级分配方法可能存在的避障无解问题。4.提出了基于最优相对避障法(ORCA)的多机协同非完整约束运动规划算法。该算法通过ORCA法实时求取最优避障速度和离散安全区约束,利用模型预测控制器滚动处理约束得到系统最优输入值,解决了速度障碍空间无法处理非完整约束的问题。该方法不依赖通信,很适合处理大规模多机协同运动规划问题。本文深入研究了非完整约束对机器人运动规划的影响,对全局运动规划和多机协同非完整约束运动规划中的难点问题进行了分析,并根据已有理论和技术研究,对问题进行针对性的算法设计并求解,对促进机器人自主导航技术和理论发展起到了积极作用。
肖清[9](2019)在《模块化仿蛇机器人建模与自主运动控制研究》文中研究指明模块化仿蛇机器人多关节、超冗余自由度的特性使其能够根据环境变化灵活改变相应运动形式,具有极强的地形适应能力。将此类机器人应用于灾害搜救、军事侦察、管道巡检等领域,将极大提高机器人在以上复杂、受限、非结构环境中的工作效率。目前国内外对仿蛇机器人的研究主要停留在对生物蛇身体结构以及少数几种蛇类运动步态的模仿,机构设计的局限与运动控制方法研究的不完善使其环境适应能力与运动效率难以提高。因此,本文重点研究针对模块化仿蛇机器人的建模与运动控制方法,以期改善仿蛇机器人的运动性能与智能化程度。本文的主要研究内容包括:1、基于旋量理论的仿蛇机器人运动学与动力学建模。在对生物蛇运动机理分析的基础上,研究模块化仿生并联关节机构设计。基于旋量理论分析仿生并联关节运动性能,确定机构约束条件与自由度。运用辅助旋量与李代数,研究并联关节速度与加速度求解方法。运用等效机构法结合完整约束,研究蜿蜒步态下仿蛇机器人各关节运动状态与整体位姿之间的关系,建立相应运动学模型。通过建立仿蛇机器人的力与力矩平衡方程,研究其关节驱动力矩与运动状态之间的关系,建立对应动力学模型,为路径跟踪控制提供理论支撑;2、基于近似动态规划的仿蛇机器人最优路径跟踪控制。基于微分几何理论结合虚拟完整约束,研究仿蛇机器人动力学模型化简方法。运用约减后的动力学模型结合视线制导策略,构建考虑模型不确定因素的仿蛇机器人最优路径跟踪目标函数。基于动态近似规划,研究以上路径跟踪目标函数对应的哈密顿-雅可比-贝尔曼方程在线求解方法。在此基础上结合经验回放技术,研究评价神经网络权值更新策略,构建仿蛇机器人最优路径跟踪控制在线学习框架;3、基于深度强化学习的仿蛇机器人步态自主涌现。运用泰勒展开同策略梯度方程,研究结合异策略强化学习梯度估计的策略融合方法,提高同策略强化学习方法的样本利用率,同时降低策略梯度估计方差,稳定步态学习过程。基于参数空间探索技术,研究针对仿蛇机器人步态控制策略的高效探索机制,提高机器人步态探索效率并保证输出动作的一致性。在此基础上结合异步并行技术,研究分布式解耦的行动-评价深度强化学习框架,最大化数据吞吐量,获得不基于模型的仿蛇机器人步态自主涌现控制策略;4、基于元学习的仿蛇机器人运动步态快速生成。运用异方差数据增强技术,研究针对仿蛇机器人动态模型的抗过拟合训练方法,打破机器人历史状态数据集的关联性同时提高训练后模型的鲁棒性。基于元学习理论,构建多任务近似元强化学习训练框架,降低高阶策略梯度估计方差。随后运用该框架从仿蛇机器人动态集成模型中采样“假想”的运动轨迹,降低算法对真实机器人状态数据的依赖,提高其样本利用率。运用并行计算技术,研究针对仿蛇机器人步态搜索框架的分布式训练方法,提高步态控制策略的搜索效率。
蒋美英[10](2019)在《复杂多变量系统闭环辨识与内模控制方法研究》文中认为工业现场多变量系统包含不确定性、多时滞、强耦合、输入输出受约束等特征,往往存在模型难以精确刻画等问题,采用传统单一的系统控制器设计方法难以满足高精度控制品质的需求。为获得更好的系统控制品质,本文引入强化学习、频域分析和平均频域非方相对增益矩阵(NRGA,Nonsquare Relative Gain Array)等先进策略,从系统模型参数估计、内模控制器设计及参数优化、控制器的稳定性与鲁棒性分析和补偿器设计等方面对复杂多变量系统中一些较难解决的问题进行研究,提出解决方案和改进措施,并结合实验仿真进行验证。本文主要研究内容包括:1、针对闭环系统辨识问题,引入频域响应估计法(FRE,Frequency Response Estimation),利用系统的频率特性分析系统的控制性能,能够快速准确给出所辨识受控对象模型的参数估计,然而该方法存在一定的局限性,即模型估计精度取决于衰减因子的选择。本文基于强化学习算法(CARLA,Continuous Action Reinforcement Learning Automata)提出了具有自适应特性的衰减因子计算方法——基于强化学习的频域响应估计法(CARLA-FRE)。该方法借助连续动作强化学习算法的在线搜索和学习能力,通过动态调整得到最优的衰减因子。对所采用的CARLA算法进行多种基本函数辨识能力测试,及与粒子群算法(PSO,Particle Swarm Optimization)、并行弥漫式(FWA,Fireworks Algorithm)算法对比,CARLA算法具备更强的全局搜索能力和准确性;2、将(1)中所提的CARLA-FRE方法扩展到多变量方系统和非方系统闭环辨识中,为后续先进控制器的设计提供优化模型。该方法利用顺序激励信号法将多输入多输出(MIMO)系统等效分解成若干个单输入单输出(SISO)系统,然后利用CARLA-FRE方法获取子系统参数的解析表达式,进而获得模型估计,实现多变量方系统和非方系统的闭环辨识问题。最后,将该方法应用到多变量系统的内模控制中,围绕基于CARLA-FRE方法在多变量系统中的内模控制器设计展开研究,选取经典的Wood-Berry模型(方系统)和Shell模型(非方系统)进行仿真验证。该方法融合强化学习与频域响应估计法,具备更强的在线学习能力和抗干扰能力,为后续内模控制研究提供模型支撑;3、为实现提高多变量多时滞控制系统性能的目的,采用线性二次高斯控制(LQG,Linear Quadratic Gaussian)方法对所提基于频域辨识的模型进行最优控制器设计。由于多变量多时滞系统中存在大量的噪声、延迟以及各部分参数摄动,本文将LQG控制方法引入到多变量多时滞过程模型中,针对此类模型中所包含系统延迟、噪声和参数摄动等不确定因素进行有效补偿和控制,提高系统参数失配鲁棒性和扰动抑制能力;4、针对一类典型强耦合非方系统,提出了两种内模控制器设计优化方法。以多变量时滞秩亏系统为研究对象,设计基于惩罚伪逆的内模控制器,通过引入惩罚因子,用非满秩系统的伪逆来代替模型的逆,提出适合时滞秩亏系统的内模控制器设计方法,采用连续强化学习对惩罚因子进行寻优,获得最大惩罚因子。针对多变量结构秩亏系统,设计基于补偿器原理的内模控制器,采用平均频域NRGA准则实现对方形子系统的最优选择。仿真结果表明,所提的两种内模控制器优化方法不但简单易行,而且在系统模型参数失配情况下也具有较强的鲁棒性和稳定性。
二、一类并行机器系统的最优控制的分析(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一类并行机器系统的最优控制的分析(论文提纲范文)
(1)多智能体系统自主规避任务决策方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景与研究意义 |
1.2 典型多智能体系统技术发展 |
1.2.1 无人机集群避碰技术研究现状 |
1.2.2 多自由度空间机械臂避障技术研究现状 |
1.2.3 航天器规避机动算法发展现状 |
1.3 基于自学习理论的决策方法国内外研究现状 |
1.3.1 多智能体深度强化学习方法研究现状 |
1.3.2 深度神经网络压缩及加速方法研究现状 |
1.3.3 稀疏奖励强化学习方法研究现状 |
1.4 主要研究内容及论文结构 |
1.4.1 存在问题及技术难点 |
1.4.2 研究内容及章节安排 |
第2章 多智能体系统决策模型 |
2.1 引言 |
2.2 动力学相关描述 |
2.2.1 多智能体系统运动模型 |
2.2.2 空间拦截器制导律 |
2.3 多智能体部分可观决策模型 |
2.3.1 马尔科夫决策过程理论基础 |
2.3.2 分布式部分可观马尔科夫博弈 |
2.3.3 常规回报函数设计思路 |
2.4 序列决策问题求解方法 |
2.4.1 模糊系统 |
2.4.2 有限状态机 |
2.4.3 蒙特卡洛树搜索 |
2.5 本章小结 |
第3章 基于ACTOR-CRITIC架构的自主决策算法 |
3.1 引言 |
3.2 问题场景描述 |
3.2.1 航天器规避机动问题场景描述 |
3.2.2 空间机械臂轨迹规划场景描述 |
3.2.3 多智能体系统决策流程分析 |
3.3 多智能体策略梯度强化学习方法 |
3.3.1 算法基础理论框架 |
3.3.2 策略梯度算法收敛性分析 |
3.3.3 策略梯度方法在多智能体系统中应用 |
3.4 基于信度分配的多智能体强化学习框架 |
3.4.1 航天器规避决策方法 |
3.4.2 案例优选的空间机械臂决策方法 |
3.4.3 基于信度分配的算法收敛性分析和改进 |
3.4.4 网络结构设计及算法流程 |
3.5 仿真及结果分析 |
3.5.1 基于最优控制理论的对比算法 |
3.5.2 航天器规避机动仿真 |
3.5.3 空间机械臂轨迹规划仿真 |
3.5.4 强化学习算法仿真结果简析 |
3.6 本章小结 |
第4章 多智能体分布式协同避碰决策方法研究 |
4.1 引言 |
4.2 有限空域无人机集群避碰问题分析 |
4.2.1 求解策略的训练方法 |
4.2.2 在线协调和沟通机制 |
4.3 多智能体强化学习系统设计 |
4.3.1 状态空间和动作空间选取 |
4.3.2 系统体系结构和流程分析 |
4.3.3 回报函数设计 |
4.4 仿真及结果分析 |
4.4.1 仿真条件设定 |
4.4.2 训练曲线及场景案例仿真 |
4.4.3 结果分析 |
4.5 本章小结 |
第5章 基于优化神经网络的分布式规避决策方法 |
5.1 引言 |
5.2 多航天器对多拦截器协同规避问题研究 |
5.2.1 状态空间和动作空间选取 |
5.2.2 系统体系结构和流程分析 |
5.2.3 回报函数设计 |
5.3 基于自适应重构方法的深度神经网络优化方法 |
5.3.1 神经网络结构设计 |
5.3.2 权值聚类及量化 |
5.3.3 自适应分层重构剪枝 |
5.4 仿真及结果分析 |
5.4.1 基于微分对策理论的对比算法 |
5.4.2 神经网络优化算法试验及数值仿真 |
5.4.3 强化学习训练及场景案例仿真 |
5.4.4 结果分析 |
5.5 本章小结 |
第6章 基于逆值法的多航天器自学习规避算法 |
6.1 引言 |
6.2 稀疏奖励强化学习算法分析 |
6.2.1 规避任务分析 |
6.2.2 常规强化学习方法局限 |
6.2.3 逆值法强化学习算法 |
6.2.4 算法核心逻辑流程 |
6.3 多智能体稀疏奖励自学习系统设计 |
6.3.1 自学习系统结构设计 |
6.3.2 信念状态估计方法 |
6.3.3 逆值法在案例中的收敛性简析 |
6.3.4 网络结构和算法流程 |
6.4 仿真及结果分析 |
6.4.1 基于有限状态机的对比算法 |
6.4.2 仿真条件设定 |
6.4.3 结果对比分析 |
6.4.4 算法优势及改进分析 |
6.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(2)AMT换挡过程驾驶品质提升与电控系统开发研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 课题研究现状 |
1.2.1 自动变速器的类别与特点 |
1.2.2 AMT换挡过程的驾驶品质控制 |
1.2.3 基于模型的电控系统开发 |
1.3 本文的主要内容安排 |
第2章 提升换挡品质的AMT电控系统开发流程分析 |
2.1 AMT升、降挡过程分析与驾驶品质提升方法 |
2.1.1 升、降挡动力学过程 |
2.1.2 干式离合器结合过程 |
2.1.3 并行控制的换挡品质提升方法 |
2.2 AMT电控系统的传统控制方法及开发流程 |
2.3 基于显式控制律设计的开发流程 |
2.4 传统标定过程与虚拟标定技术 |
2.5 本章小结 |
第3章 抗扰最优显式控制律设计及其虚拟标定工具开发 |
3.1 换挡过程的性能评价指标及控制目标 |
3.2 面向控制的AMT换挡过程数学模型 |
3.3 抗扰最优显式控制律的设计与实现 |
3.3.1 线性二次型调节器 |
3.3.2 抗扰最优显式控制律 |
3.3.3 扰动观测器 |
3.3.4 控制律实现 |
3.4 虚拟标定工具的功能实现 |
3.5 本章小结 |
第4章 基于软件在环技术的联合仿真验证 |
4.1 “模型”在基于模型设计中的意义与分类 |
4.2 MATLAB/Simulink+AMESim的联合仿真环境 |
4.3 整车仿真模型与控制器模型 |
4.3.1 AMESim整车仿真模型 |
4.3.2 MATLAB/Simulink控制器模型 |
4.4 不同工况下的联合仿真结果与分析 |
4.4.1 名义工况下的仿真结果与分析 |
4.4.2 扰动工况下的仿真结果与分析 |
4.5 本章小结 |
第5章 基于奔腾B50 平台的电控系统实车试验验证 |
5.1 奔腾B50 实车平台与执行机构 |
5.2 换挡过程的试验结果与分析 |
5.2.1 试验前期准备 |
5.2.2 名义工况下的试验结果与分析 |
5.2.3 扰动工况下的试验结果与分析 |
5.3 真实道路场景下的试验结果与分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
附录 |
作者简介及攻读硕士学位期间的研究成果 |
致谢 |
(3)时滞系统最优控制问题的多重打靶式高效求解算法(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究的背景及意义 |
1.2 最优控制问题求解算法的国内外研究现状 |
1.2.1 最优控制问题的数学描述 |
1.2.2 最优控制问题的求解算法 |
1.3 时滞系统最优控制与估计问题的国内外研究现状 |
1.3.1 时滞系统的研究背景 |
1.3.2 时滞系统最优控制与估计问题的求解算法 |
1.4 多重打靶与并行计算的国内外研究现状 |
1.4.1 多重打靶算法 |
1.4.2 并行计算 |
1.5 论文的主要内容 |
第二章 最优控制问题的直接式求解算法 |
2.1 课题组最优控制相关的前期工作 |
2.2 非线性规划问题的求解 |
2.2.1 无约束非线性规划问题的求解 |
2.2.2 有约束非线性规划问题 |
2.3 多重打靶法 |
2.3.1 常微分方程 |
2.3.2 时滞微分方程 |
2.3.3 核心思想 |
2.4 偏导数计算方式 |
2.4.1 手工计算 |
2.4.2 数值微分 |
2.4.3 符号微分 |
2.4.4 自动微分 |
2.5 相关软件工具 |
2.5.1 Ipopt软件包 |
2.5.2 多线程编程技术 |
2.6 本章小结 |
第三章 时滞系统最优控制问题的多重打靶式求解算法 |
3.1 时滞系统最优控制问题的数学描述 |
3.2 基于多重打靶的时滞系统最优控制问题高效求解算法 |
3.2.1 控制参数化 |
3.2.2 多重打靶策略 |
3.2.3 隐式CRK积分 |
3.2.4 偏导数计算 |
3.2.5 算法加速 |
3.2.6 复杂度分析 |
3.3 算法的软件实现及数值仿真 |
3.3.1 软件实现 |
3.3.2 数值仿真 |
3.4 本章小结 |
第四章 基于不精确牛顿迭代的多重打靶式求解算法 |
4.1 基于雅可比矩阵的迭代算法 |
4.2 雅可比矩阵近似的三种方式 |
4.2.1 单迭代步雅可比矩阵 |
4.2.2 单积分步雅可比矩阵 |
4.2.3 单雅可比矩阵 |
4.2.4 复杂度分析 |
4.3 编译器优化 |
4.4 数值仿真 |
4.4.1 预测-修正策略关闭时的近似效果 |
4.4.2 预测-修正策略打开时的近似效果 |
4.4.3 编译器优化效果 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 课题展望 |
参考文献 |
附录 1 多线程测试程序 |
攻读硕士学位期间的学术活动及成果情况 |
(4)恶意攻击情形下信息物理系统的安全控制研究(论文提纲范文)
摘要 |
ABSTRACT |
主要符号表 |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 课题研究现状 |
1.2.1 信息物理系统攻击检测研究进展 |
1.2.2 拒绝服务攻击情形下信息物理系统安全研究进展 |
1.2.3 虚假数据注入攻击情形下信息物理系统安全研究进展 |
1.3 本论文研究范围 |
1.4 本论文的主要研究内容 |
1.4.1 拒绝服务攻击情形下的信息物理系统安全控制设计 |
1.4.2 虚假数据注入攻击情形下的信息物理系统安全控制设计 |
第2章 拒绝服务攻击情形下基于防御策略的安全滑模控制 |
2.1 引言 |
2.2 系统描述与准备工作 |
2.2.1 物理过程描述 |
2.2.2 拒绝服务攻击 |
2.3 安全滑模控制设计 |
2.3.1 估计器设计 |
2.3.2 滑模控制方法 |
2.3.3 稳定性分析 |
2.3.4 安全滑模控制器设计 |
2.3.5 仿真结果 |
2.4 基于防御的安全控制 |
2.4.1 最优防御策略设计 |
2.4.2 基于防御策略的估计器设计 |
2.4.3 滑动模态分析 |
2.4.4 基于防御策略的安全滑模控制设计 |
2.4.5 仿真结果 |
2.5 本章小结 |
第3章 基于强化学习的信息物理系统跟踪控制设计 |
3.1 引言 |
3.2 系统描述与预备知识 |
3.2.1 物理动态与参考模型描述 |
3.2.2 基于SINR的通讯模型 |
3.3 安全最优跟踪控制器设计以及稳定性分析 |
3.3.1 值函数分析 |
3.3.2 最优跟踪控制器设计 |
3.3.3 黎卡提方程解的分析 |
3.4 Q学习最优跟踪控制器设计 |
3.4.1 算法收敛性分析 |
3.4.2 仿真结果 |
3.5 离线学习控制设计算法 |
3.5.1 基于模型的离线控制策略设计 |
3.5.2 无模型的离线学习控制策略设计 |
3.5.3 仿真结果 |
3.6 本章小结 |
第4章 执行器攻击情形下基于零和博弈的最优安全控制 |
4.1 引言 |
4.2 系统描述 |
4.2.1 物理对象模型描述 |
4.2.2 执行器攻击 |
4.3 最优安全控制策略设计与性能分析 |
4.3.1 最优估计器设计 |
4.3.2 基于零和博弈的最优策略设计 |
4.3.3 博弈黎卡提方程解的收敛性分析 |
4.4 在线控制策略设计 |
4.5 仿真结果 |
4.6 本章小结 |
第5章 基于移动目标防御和零和博弈的安全控制设计 |
5.1 引言 |
5.2 系统描述与预备知识 |
5.2.1 物理对象描述:基于切换系统形式的建模方法 |
5.2.2 攻击情形下的闭环系统 |
5.3 移动目标防御安全控制设计与稳定性分析 |
5.3.1 控制策略与移动目标防御机制设计 |
5.3.2 稳定性分析 |
5.4 攻击诊断与分离 |
5.4.1 攻击诊断观测器设计 |
5.4.2 攻击分离设计 |
5.5 基于移动目标防御和强化学习的安全控制算法设计 |
5.5.1 基于强化学习的被动控制设计 |
5.5.2 安全控制算法设计与收敛性分析 |
5.6 仿真结果 |
5.6.1 两个执行机构同时受到攻击 |
5.6.2 部分执行机构受到攻击 |
5.7 本章小结 |
第6章 基于深度强化学习应对执行器攻击的控制方法 |
6.1 引言 |
6.2 系统描述与问题阐述 |
6.2.1 物理系统描述 |
6.2.2 网络攻击下的信息物理系统 |
6.3 基于深度强化学习的安全控制算法设计与实现 |
6.3.1 马尔科夫决策过程 |
6.3.2 强化学习算法 |
6.3.3 深度神经网络近似 |
6.3.4 基于李雅普诺夫函数的柔性actor-critic深度强化学习控制算法实现 |
6.4 算法收敛性和系统稳定性分析 |
6.4.1 算法收敛性分析 |
6.4.2 基于数据的稳定性分析 |
6.5 仿真结果 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(5)机器人深度强化学习控制方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.2.1 深度强化学习 |
1.2.2 多智能体强化学习 |
1.2.3 深度强化学习控制与应用 |
1.3 研究内容与论文结构 |
第二章 强化学习基础理论 |
2.1 智能体-环境交互模型 |
2.2 值函数 |
2.3 基于值函数的强化学习算法 |
2.4 基于策略的强化学习算法 |
第三章 基于深度强化学习的四旋翼无人机控制 |
3.1 引言 |
3.2 相关工作 |
3.2.1 传统控制方法 |
3.2.2 基于学习的控制方法 |
3.3 四旋翼无人机模型 |
3.4 四旋翼无人机强化学习控制器设计 |
3.4.1 确定性策略梯度算法 |
3.4.2 带积分补偿的确定性策略梯度算法 |
3.4.3 四旋翼控制器结构和设计 |
3.4.4 两段式训练算法 |
3.5 仿真实验 |
3.5.1 训练和测试环境 |
3.5.2 离线训练 |
3.5.3 离线控制策略实验和结果 |
3.5.4 在线训练实验和结果 |
3.6 本章小结 |
第四章 基于模块化深度强化学习移动机器人复杂环境避障控制 |
4.1 引言 |
4.2 相关工作 |
4.2.1 传统机器人学的避障方法 |
4.2.2 基于深度学习的避障方法 |
4.2.3 基于强化学习的避障方法 |
4.3 环境与任务描述 |
4.4 模块化深度强化学习导航算法 |
4.4.1 局部避障模块 |
4.4.2 全局导航模块 |
4.4.3 动作调度模块 |
4.5 仿真实验 |
4.5.1 深度双流Q网络局部避障训练与对比实验 |
4.5.2 导航模块离线训练与测试结果 |
4.5.3 模块化深度强化学习在线训练与对比测试结果 |
4.6 本章小结 |
第五章 基于深度强化学习的多智能体合作追捕 |
5.1 引言 |
5.2 相关工作 |
5.2.1 微分追逃博弈 |
5.2.2 强化学习与追逃博弈 |
5.2.3 基于学习通信的合作策略 |
5.3 合作追捕学习算法 |
5.3.1 环形拓扑网络下合作追捕学习算法 |
5.3.2 主从式线形拓扑网络下合作追捕学习算法 |
5.4 仿真实验 |
5.4.1 仿真环境描述 |
5.4.2 训练实施方式 |
5.4.3 实验结果与分析 |
5.5 本章小结 |
第六章 基于深度强化学习的无人机无人艇协同控制 |
6.1 引言 |
6.2 相关工作 |
6.2.1 无人机与地面和水面载具的合作导航 |
6.2.2 视觉引导的无人机自主降落 |
6.3 无人艇无人机模型 |
6.3.1 无人艇模型 |
6.3.2 无人机观测模型 |
6.4 基于深度学习的海上目标检测和定位 |
6.4.1 侦察任务检测网络模型 |
6.4.2 着艇任务检测网络模型 |
6.5 无人艇海上侦察任务 |
6.5.1 TD3强化学习算法 |
6.5.2 无人艇控制器设计和训练方法 |
6.6 无人机自主着艇控制 |
6.7 仿真实验 |
6.7.1 仿真环境介绍 |
6.7.2 海上目标检测仿真实验 |
6.7.3 无人艇海上目标跟踪任务仿真实验 |
6.7.4 无人机自主着艇任务仿真实验 |
6.8 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
参考文献 |
作者攻读博士学位期间的研究成果 |
致谢 |
(6)混杂参数系统的动态优化 ——以催化裂化装置为例(论文提纲范文)
摘要 |
ABSTRACT |
创新点 |
第1章 绪论 |
1.1 混杂参数动态优化研究背景 |
1.2 混杂参数系统动态优化研究基础 |
1.2.1 混杂参数系统动态优化的定义 |
1.2.2 混杂参数系统的动态建模 |
1.2.3 混杂参数动态优化问题的解析解法 |
1.2.4 混杂参数动态优化问题的同时参数化方法 |
1.2.5 混杂参数动态优化问题的分解算法 |
1.2.6 混杂参数动态优化问题最优解的闭环实现 |
1.3 混杂参数动态优化问题剖析 |
1.4 研究内容及结构安排 |
1.5 本章小结 |
第2章 包含CO助燃剂添加量的催化裂化模型 |
2.1 催化裂化装置概述 |
2.2 催化裂化中的连续操作和批次操作 |
2.3 包含CO助燃剂添加量的扩展模型 |
2.4 CO助燃剂对催化裂化系统性能的影响 |
2.5 本章小结 |
第3章 混杂参数极小值原理 |
3.1 混杂系统概述 |
3.2 混杂参数极小值原理 |
3.2.1 混杂参数最优控制问题的数学描述 |
3.2.2 单阶段混杂参数极小值原理 |
3.2.3 多阶段混杂参数极小值原理 |
3.3 解析案例研究 |
3.3.1 单阶段混杂参数最优控制问题 |
3.3.2 多阶段混杂参数最优控制问题 |
3.4 本章小结 |
第4章 非凸灵敏性广义Benders分解 |
4.1 分解算法概述 |
4.2 非凸灵敏性广义Benders分解 |
4.2.1 广义Benders分解概述 |
4.2.2 近似复杂变量的可行域 |
4.2.3 操作Benders割以处理非凸性 |
4.2.4 NSGBD算法的完整表述 |
4.3 相关定理的讨论 |
4.4 例子研究 |
4.4.1 非正则点的例子 |
4.4.2 NSGBD算法的解析例子 |
4.5 本章小结 |
第5章 混杂参数动态优化问题的数值解法 |
5.1 混杂参数动态优化问题的同时参数化法 |
5.1.1 直接法概述 |
5.1.2 自适应CVP法 |
5.2 混杂参数动态优化问题的分解算法 |
5.2.1 混杂参数动态优化问题的完整描述 |
5.2.2 混杂参数动态优化问题的NSGBD算法 |
5.3 案例研究 |
5.4 本章小结 |
第6章 以催化裂化为例的混杂参数动态优化问题 |
6.1 催化裂化集成优化问题的数学形式 |
6.2 混杂参数动态优化问题数值解的实现框架 |
6.3 五种操作模式 |
6.3.1 模式1:CO助燃剂(批次8h)主风流量(连续) |
6.3.2 模式2:CO助燃剂(批次 8h)主风流量(批次 8h) |
6.3.3 模式3:CO助燃剂(批次 8h)主风流量(批次 2h) |
6.3.4 模式4:CO助燃剂(给定8h)主风流量(连续) |
6.3.5 模式5:CO助燃剂(给定8h)主风流量(批次2h) |
6.4 五种操作模式的对比 |
6.5 本章小结 |
第7章 结论与展望 |
7.1 研究内容总结 |
7.2 后续工作展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
学位论文数据集 |
(7)可重构机械臂的快速指数稳定性分析与最优控制方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及意义 |
1.2 可重构机械臂系统及控制方法研究现状 |
1.2.1 可重构机械臂系统研究现状 |
1.2.2 可重构机械臂构形设计与优化研究现状 |
1.2.3 可重构机械臂自动建模与路径规划方法研究现状 |
1.2.4 可重构机械臂轨迹跟踪控制方法研究现状 |
1.2.5 可重构机械臂容错控制方法研究现状 |
1.3 本文的主要内容与章节安排 |
1.3.1 可重构机械臂研究现存的关键问题 |
1.3.2 论文主要研究内容 |
1.3.3 论文章节安排 |
第2章 可重构机械臂系统动力学建模 |
2.1 引言 |
2.2 可重构机械臂系统动力学模型建立 |
2.2.1 基于牛顿-欧拉方法的系统动力学模型建立 |
2.2.2 面向非结构环境约束的系统动力学模型建立 |
2.3 基于关节力矩量测的可重构机械臂动力学模型建立 |
2.3.1 基于关节力矩量测的系统动力学模型建立 |
2.3.2 动力学模型不确定性分析 |
2.4 可重构机械臂系统故障动力学模型建立 |
2.4.1 可重构机械臂子系统执行器故障模型 |
2.4.2 可重构机械臂子系统传感器故障模型 |
2.5 本章小节 |
第3章 可重构机械臂系统的快速指数稳定性分析 |
3.1 引言 |
3.2 非线性系统的快速指数稳定性分析 |
3.2.1 非线性自治系统的快速指数稳定性分析 |
3.2.2 非线性控制系统快速指数稳定控制器 |
3.3 可重构机械臂系统的快速指数稳定判别准则 |
3.4 仿真结果分析 |
3.4.1 非线性控制系统数值仿真 |
3.4.2 二自由度可重构机械臂数值仿真与结果分析 |
3.5 本章小结 |
第4章 基于归零神经网络的可重构机械臂 路径规划算法研究 |
4.1 引言 |
4.2 基于归零神经网络的路径规划算法研究 |
4.2.1 问题描述 |
4.2.2 归零神经网络稳定性分析 |
4.3 仿真结果分析 |
4.4 本章小结 |
第5章 可重构机械臂轨迹跟踪最优控制方法研究 |
5.1 引言 |
5.2 基于加速PD型迭代学习的轨迹跟踪最优控制方法 |
5.2.1 问题描述 |
5.2.2 基于无需重置条件的加速迭代学习控制器设计 |
5.2.3 系统收敛性分析 |
5.2.4 仿真结果分析 |
5.3 基于自适应滑模的轨迹跟踪最优控制方法 |
5.3.1 问题描述 |
5.3.2 基于关节力矩量测的自适应终端滑模控制器设计 |
5.3.3 系统稳定性分析 |
5.4 可重构机械臂系统实验平台构建 |
5.5 实验结果分析 |
5.6 本章小结 |
第6章 可重构机械臂系统的容错控制方法研究 |
6.1 引言 |
6.2 基于滑模观测器的分散主动容错控制 |
6.2.1 问题描述 |
6.2.2 模型不确定性与执行器故障分析 |
6.2.3 分散容错控制器设计 |
6.3 系统稳定性分析 |
6.4 实验研究与结果分析 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 未来工作展望 |
致谢 |
参考文献 |
作者简介 |
攻读博士学位期间研究成果 |
(8)非完整约束移动机器人运动规划关键技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 非完整约束移动机器人路径规划研究现状 |
1.2.1 环境建模方法 |
1.2.2 路径搜索方法 |
1.3 非完整约束移动机器人运动规划研究现状 |
1.3.1 静态环境的运动规划研究 |
1.3.2 动态环境的运动规划研究 |
1.4 本文的研究目标和内容 |
1.4.1 研究现状总结 |
1.4.2 研究目标 |
1.4.3 研究内容及章节安排 |
第2章 非完整约束移动机器人运动学和动力学分析 |
2.1 引言 |
2.2 非完整约束 |
2.3 差分轮式移动机器人运动学模型 |
2.4 差分轮式移动机器人动力学模型 |
2.5 可控性分析 |
2.6 线性跟踪误差模型 |
2.7 本章小结 |
第3章 非完整约束移动机器人全局运动规划研究 |
3.1 引言 |
3.2 最优控制问题 |
3.3 最优控制问题的数值求解方法 |
3.3.1 微分方程的数值求解法 |
3.3.2 积分方程的数值求解方法 |
3.3.3 非线性规划问题的数值求解方法 |
3.4 多区间Chebyshev伪谱法 |
3.4.1 伪谱法的基本原理 |
3.4.2 多区间策略 |
3.4.3 Chebyshev伪谱法和CGL节点 |
3.5 基于多区间Chebyshev伪谱法求解非完整约束运动规划问题 |
3.6 数值实验 |
3.7 本章小结 |
第4章 基于Net-MPC的多机协同运动规划问题研究 |
4.1 引言 |
4.2 网络模型预测控制原理 |
4.2.1 图论 |
4.2.2 网络控制系统 |
4.2.3 模型预测控制 |
4.2.4 参考轨迹设计 |
4.3 网络模型预测控制分类 |
4.3.1 集中式网络模型预测控制 |
4.3.2 基于合作的分布式网络模型预测控制 |
4.3.3 基于非合作的分布式模型预测控制 |
4.4 基于优先级的非合作分布式模型预测控制 |
4.4.1 优先级分配问题研究 |
4.4.2 耦合关系分析 |
4.4.3 稳定性分析 |
4.4.4 通信分析 |
4.5 考虑非完整约束的多机协同避障问题研究 |
4.5.1 DDMR预测模型 |
4.5.2 目标函数设计 |
4.5.3 无碰撞约束设计 |
4.6 非凸优化问题数值求解 |
4.6.1 序列凸规划算法 |
4.7 数值实验 |
4.8 本章小结 |
第5章 基于ORCA的多机协同运动规划问题研究 |
5.1 引言 |
5.2 最优相对避障法 |
5.2.1 ORCA的定义 |
5.2.2 非完整约束的影响 |
5.3 ORCA安全区设计 |
5.3.1 安全区的构建 |
5.3.2 安全区避障证明 |
5.4 基于ORCA-MPC非完整约束多机协同运动规划算法 |
5.4.1 DDMR运动学模型 |
5.4.2 模型预测控制器设计 |
5.4.3 避障约束设计 |
5.4.4 ORCA-MPC与 ORCA-PID算法 |
5.5 数值实验 |
5.5.1 ORCA-MPC与 ORCA-PID对比仿真实验 |
5.5.2 多机器人障碍物环境下仿真实验 |
5.6 本章小结 |
总结与展望 |
致谢 |
参考文献 |
攻读博士学位期间发表的论文及科研成果 |
(9)模块化仿蛇机器人建模与自主运动控制研究(论文提纲范文)
学位论文数据集 |
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及意义 |
1.2 文献综述 |
1.2.1 仿蛇机器人机构设计 |
1.2.2 仿蛇机器人建模方法 |
1.2.3 仿蛇机器人运动步态与控制方法 |
1.3 目前研究存在的问题 |
1.4 本论文的主要工作 |
第2章 基于旋量理论的仿蛇机器人运动学与动力学建模 |
2.1 引言 |
2.2 运动机理分析 |
2.2.1 生物蛇身体结构分析 |
2.2.2 蛇类运动步态分析 |
2.2.3 仿蛇机器人模块化机构设计理念 |
2.3 仿生并联关节机构性能分析 |
2.3.1 仿生并联关节机构简述 |
2.3.2 运动性能分析 |
2.4 仿生并联关节运动学及其等效机构分析 |
2.4.1 位置分析 |
2.4.2 基于旋量理论的速度及加速度分析 |
2.4.3 仿生并联关节等效机构及其运动方程 |
2.5 基于完整约束的仿蛇机器人运动学与动力学建模 |
2.5.1 运动学建模 |
2.5.2 摩擦力建模 |
2.5.3 动力学建模 |
2.6 仿真验证 |
2.7 小结 |
第3章 基于近似动态规划的仿蛇机器人最优路径跟踪控制 |
3.1 引言 |
3.2 仿蛇机器人误差动力学方程 |
3.2.1 基于约束流形的动力学模型约减 |
3.2.2 基于视线制导律的误差动力学方程 |
3.3 仿蛇机器人最优路径跟踪控制 |
3.3.1 鲁棒近似最优控制 |
3.3.2 基于在线近似动态规划的最优路径跟踪 |
3.4 稳定性分析 |
3.5 仿真验证 |
3.6 小结 |
第4章 基于分布式融合策略搜索的仿蛇机器人步态自主涌现 |
4.1 引言 |
4.2 问题描述 |
4.2.1 异策略深度强化学习方法 |
4.2.2 同策略深度强化学习方法 |
4.3 基于策略融合与参数空间扰动的最优策略搜索 |
4.3.1 策略融合梯度估计 |
4.3.2 参数空间扰动探索 |
4.4 基于分布式异策略优化的仿蛇机器人步态生成 |
4.4.1 并行加速方法 |
4.4.2 异策略修正 |
4.4.3 仿蛇机器人步态自主生成策略搜索算法 |
4.5 仿真验证 |
4.6 小结 |
第5章 基于元学习模型加速的仿蛇机器人步态快速生成 |
5.1 引言 |
5.2 问题描述 |
5.2.1 基于模型的深度强化学习方法 |
5.2.2 基于元学习的深度强化学习方法 |
5.3 基于动态集成模型的仿蛇机器人动力学建模 |
5.4 基于元学习的仿蛇机器人步态控制策略快速搜索 |
5.4.1 基于近似元学习的多任务强化学习 |
5.4.2 融合动态集成模型加速的近似元强化学习策略搜索 |
5.5 仿真验证 |
5.6 小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
研究成果及发表的学术论文 |
作者和导师简介 |
附件 |
(10)复杂多变量系统闭环辨识与内模控制方法研究(论文提纲范文)
学位论文数据集 |
摘要 |
abstract |
第一章 绪论 |
1.1 引言 |
1.2 内模控制方法 |
1.2.1 内模控制基本原理 |
1.2.2 内模控制国内外研究现状 |
1.2.3 多变量系统内模控制研究现状 |
1.2.4 多变量非方系统内模控制研究现状 |
1.3 系统辨识方法 |
1.3.1 系统辨识简介 |
1.3.2 多变量系统辨识研究现状 |
1.4 主要研究内容 |
第二章 基于强化学习的频域响应估计法(CARLA-FRE) |
2.1 引言 |
2.2 频域响应估计法 |
2.2.1 开环控制系统的频域分析 |
2.2.2 闭环控制系统的频域分析 |
2.2.3 频域分析方法的优缺点 |
2.3 基于强化学习的频域响应估计法 |
2.3.1 强化学习基本原理 |
2.3.2 连续动作强化学习自动机算法 |
2.3.3 基于CARLA的频域响应估计法 |
2.4 CARLA算法性能验证 |
2.5 本章小结 |
第三章 基于CARLA-FRE辨识的多变量系统内模控制应用 |
3.1 引言 |
3.2 问题描述 |
3.3 基于CARLA-FRE的多变量系统内模控制 |
3.3.1 基于CARLA-FRE的多变量方系统辨识 |
3.3.2 基于CARLA-FRE的多变量非方系统辨识 |
3.3.3 多变量系统的内模控制器设计方法 |
3.4 仿真实验 |
3.4.1 多变量方系统辨识——Wood-Berry模型 |
3.4.2 多变量非方系统辨识——Shell模型 |
3.5 本章小结 |
第四章 基于LQG控制方法的多变量多时滞过程最优控制 |
4.1 引言 |
4.2 卡尔曼滤波和最优控制介绍 |
4.2.1 卡尔曼滤波理论 |
4.2.2 最优控制 |
4.2.3 状态反馈原理 |
4.2.4 状态空间模型构造 |
4.3 基于最优控制方法的多变量多时滞过程控制律设计 |
4.3.1 基于卡尔曼滤波器的状态估计 |
4.3.2 最优控制律设计 |
4.4 仿真研究 |
4.5 本章小结 |
第五章 一类强耦合非方系统的内模控制方法优化研究 |
5.1 引言 |
5.2 问题描述 |
5.3 基于惩罚伪逆的时滞非方系统内模控制方法 |
5.3.1 解耦内模控制结构 |
5.3.2 内模控制器的设计 |
5.3.3 稳态性能分析 |
5.3.4 基于CARLA的最大惩罚因子ρ_0寻优 |
5.4 基于补偿器原理的非方系统内模控制方法 |
5.4.1 补偿器的设计 |
5.4.2 方形子系统的选择 |
5.4.3 内模控制器的应用 |
5.5 仿真分析 |
5.5.1 基于惩罚伪逆的内模控制器设计 |
5.5.2 基于补偿器原理的内模控制器设计 |
5.5.3 以上两种内模控制器的仿真分析 |
5.6 小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
研究成果及发表的学术论文 |
作者和导师简介 |
附件 |
四、一类并行机器系统的最优控制的分析(论文参考文献)
- [1]多智能体系统自主规避任务决策方法研究[D]. 赵毓. 哈尔滨工业大学, 2021(02)
- [2]AMT换挡过程驾驶品质提升与电控系统开发研究[D]. 程一帆. 吉林大学, 2021(01)
- [3]时滞系统最优控制问题的多重打靶式高效求解算法[D]. 金成. 合肥工业大学, 2021
- [4]恶意攻击情形下信息物理系统的安全控制研究[D]. 吴承伟. 哈尔滨工业大学, 2021(02)
- [5]机器人深度强化学习控制方法研究[D]. 王远大. 东南大学, 2020(02)
- [6]混杂参数系统的动态优化 ——以催化裂化装置为例[D]. 林嘉奖. 中国石油大学(北京), 2020(02)
- [7]可重构机械臂的快速指数稳定性分析与最优控制方法研究[D]. 李岩. 长春工业大学, 2020
- [8]非完整约束移动机器人运动规划关键技术研究[D]. 毛润. 西南交通大学, 2020(06)
- [9]模块化仿蛇机器人建模与自主运动控制研究[D]. 肖清. 北京化工大学, 2019(01)
- [10]复杂多变量系统闭环辨识与内模控制方法研究[D]. 蒋美英. 北京化工大学, 2019(01)