一、高性能网格并行计算(论文文献综述)
金媛[1](2020)在《面向CPU,GPU及其异构形式的混合模拟算法的高性能并行优化》文中研究指明高性能计算(HPC)通常是使用一定数量的处理器或通过网络管理集群中的若干台计算机这样的环境来对问题进行计算。并行计算是解决高性能计算问题的其中一种方式,它能让多条指令同时进行,可分为时间并行和空间并行。目前,高性能并行计算是物理、生物、化学等领域重要的研究手段之一,如今已有越来越多的领域开始借助高性能并行计算技术来解决科学研究中的实际问题,如在空间科学中广泛应用的数值模拟方法。研究人员使用一维、二维以及三维的数值模拟程序进行科研并取得了丰富的成果。如今随着科研的发展,这些模拟方法越来越需要更加精确的计算,这对计算机性能的要求非常高。基于这个原因使得采用并行计算来进行数值模拟成为了目前研究的一个热点。本文围绕高性能并行计算展开研究。首先从数值模拟的发展背景出发,介绍了高性能并行计算在空间科学中的应用与发展现状;然后,介绍了本文采用的数值模拟方法,描述了该方法的物理模型及其原理,并实现了该方法的串行程序,介绍了程序流程以及基本结构;接着分别利用基于GPU与MPI的并行计算方法对混合模拟程序进行了相应优化,并针对程序优化后的计算性能进行测试。研究结果表明,在空间数值模拟中使用GPU或者大规模集群进行并行计算相较于使用单个CPU计算有显着的性能提升效果,并且性价比更高。最后使用优化后的混合模拟程序进行了腔离子密度对月球尾流静电激波形成影响的分析研究,模拟了月球尾流中密度结构的演变和静电激波的形成,发现初始空腔离子密度在等离子体填充月球尾流过程中对密度结构/静电激波的演化起着至关重要的作用,不仅展示了自主开发的混合模拟程序在科学研究中的实际应用,并通过与理论相符合的实验结果证明了程序的正确性与可靠性。
张海红[2](2020)在《DSMC/PIC等离子体羽流的大规模并行计算》文中认为稀薄空气动力学是探讨稀薄气体流动问题中质量、能量传递连同产生的化学反应规律的一门学科。由于环境真空度很高,稀薄效应显着,传统的连续性方法不再适用。等离子体羽流作为稀薄流的一个重要分支,主要应用于等离子器件分析及等离子体推力器等领域。随着高性能计算技术的发展,通过数值模拟研究等离子体羽流成为重要的研究手段和热点方向。直接模拟蒙特卡罗(Direct Simulate Monte Carlo,简称DSMC)方法和粒子网格(Particle-in-cell,简称PIC)方法分别发展和完善成为模拟中性粒子和带电离子的重要数值模拟方法。本文结合科学研究和工程实践中,等离子体羽流数值模拟的并行计算实际需求,针对课题组内部的In-house的DSMC模拟程序,开展等离子体羽流的DSMC模拟的大规模并行计算和动态负载均衡相关研究。结合项目组的带电离子PIC模拟程序,进一步开展DSMC/PIC耦合程序的并行算法设计研究。由于DSMC方法中各个网格单元上仿真分子的运动、碰撞和化学反应都是独立处理的,具有良好的原生算法并行性,非常适合于做并行计算。但是由于仿真分子运动导致的分布不均匀,在做并行计算的过程中就会出现负载不均衡的现象,从而严重限制DSMC并行算法在大规模并行时的效率。本文利用MPI分布式并行计算模型,基于Metis库图剖分技术对计算区域进行负载剖分,利用主从通信模式处理进程间在仿真分子运动过程中出现的仿真分子信息交互,实现了非结构网格DSMC程序的通用并行算法。为了提高并行计算的效率,进一步设计并实现了基于仿真分子数加权的动态调整负载平衡策略,缓解DSMC并行程序由于仿真分子运动导致的负载不均衡性问题,提高算法并行效率。通过对网格规模为9万的模型问题在天河二号高性能计算机平台的单节点上进行并行数值模拟测试,验证了并行算法的正确性和有效性。对比串行DSMC程序,MPI并行版本有效的减少了模拟时间,24进程时取得了7.54倍的性能加速比。在采用负载均衡后,并行DSMC程序的性能得到了提升,性能加速比提高到9.23,并行效率更高。通过进一步将测试的网格规模扩展到98万,并行规模从64进程扩展到256进程时,取得了1.48倍的性能加速比,并行效率维持在37%,具有较好的性能可扩展性。最后,针对DSMC/PIC耦合算法的并行计算,设计了Fortran和C++的混合编程的整体并行计算流程。分析了耦合程序存在的并行难点,采用八叉树算法实现两套网格的对应,利用MPI消息传递设计不同计算过程中仿真分子在两套网格间潮汐迁移的信息交互过程,并给出DSMC/PIC耦合程序的并行算法流程。
赵然[3](2019)在《基于OpenFOAM的RBF动网格优化算法研究》文中指出动网格方法作为解决计算流体学(CFD,Computational Fluid Dynamics)中运动边界问题的重要技术,被广泛应用在汽车、航天等工业生产中。随着高性能计算技术在近年来的高速发展,大规模动网格数值模拟研究能够为流体相关工程计算提供有价值的实践参考。目前的动网格技术主要存在的问题是,在模型规模大、物体运动剧烈的情况下,其计算效率和计算精度不够高和网格调整效果不够好等。因此,本课题针对数值模拟中动网格技术所面临的挑战,对基于OpenFOAM的RBF动网格优化算法展开研究,主要工作和创新点包括:1.实现了基于贪心选点的RBF动网格原型算法(第二章)本文基于OpenFOAM开源软件平台,通过对平台结构的分析,在数值求解部分增加满足RBF动网格的功能模块,以此在平台上实现了基于贪心选点的RBF动网格原型算法。2.设计实现了面向RBF矩阵系统优化的分块迭代算法(第三章)本文提出了一种基于RBF矩阵系统的分块迭代算法,并针对不同规模、不同形态网格进行了测试,结果显示平均计算耗时降幅达到90%以上。3.设计实现了基于边界重划分的RBF动网格并行优化算法(第四章)本文对整个RBF动网格贪心选点过程进行了分析,对所有可并行过程进行了并行化处理;并从通信、负载均衡方面考虑,用改良边界重划分和集合通信方法对传统的RBF网格并行算法进行了优化。测试结果显示,相较于传统的并行方法,其通信时间降低,并行效率也得到提高。
丁胜杰[4](2019)在《面向天河二号的大规模粒子输运异构计算》文中指出高性能计算(High performance computing,HPC)在航空航天、天体物理学、生物医学、气象、材料科学、核工程等科学研究和工程技术领域无一不发挥着重要作用。粒子输运模拟就是其中的一项重要应用。自上世纪三十年代中子被发现后,对于各类微观粒子的研究就一直持续不断。粒子运输理论已经被应用在天体物理、核物理、医学放射性治疗等重要领域。粒子输运方程(Boltzmann方程)是描述粒子传输过程的数学物理方程,其求解算法一直是研究的关键。随着科技的发展和实际应用问题的需要,对粒子输运模拟精度和实时性要求也越来越高。本文致力于利用天河2A高性能计算平台,优化粒子输运模拟应用的性能,提升高性能计算平台的效率和利用率,主要贡献如下:1、针对基于结构化网格求解三维粒子输运方程的数值计算方法特点,深入研究了现有的并行计算方法,提出并实现了基于Matrix-2000的三维结构化网格的大规模粒子输运异构并行算法。通过BCL和ACL接口完成CPU和Matrix-2000的数据传输,构建异构并行算法。在Matrix-2000端进行Open MP线程级并行优化,提升计算速度。线程级并行优化的内容包括计算迭代源,I-line网格柱计算和通量误差计算,在Matrix-2000超加速结点上取得了最大13.2倍的加速效果。在天河二号升级系统上完成百万核规模的扩展测试,并行效率较高,程序具有较好的可扩展性。2、在现有粒子输运蒙特卡罗模拟算法MCNP程序基础上,提出了一种面向CPU-MT2000异构系统的粒子输运异构协同算法;针对国产加速器Matrix-2000的架构和访存特点提出了适于程序并行的高效数据结构及基于粒子数与线程数的任务划分方法。同时,优化了原始的串行数据收集通信模式,提出新的二叉树通信模式,极大减少了通信时间,加速比可达17.7。通过优化通信模式,以及基于MPI-SCIF-Open MP编程框架,我们实现的基于CPU-MT2000异构协同计算的并行程序,可以弱扩展到45万核,相对5万核并行效率保持在22.54%。
胡逸騉[5](2019)在《面向高性能计算的能耗感知任务调度算法及应用》文中研究指明随着高性能计算(High-Performance Computing,HPC)技术的发展,高性能计算机的性能有了质的飞跃,但其能耗也相应的快速增长。大规模计算集群系统消耗了越来越多的能量,在运营成本、环境和系统可用性等方面产生各种问题。目前,超级计算和HPC计算机的功率消耗已达到兆瓦级别,排名第一的“Summit”已达到9.783兆瓦。因此,HPC计算机所面临的能源消耗问题已成为该领域发展的一个重要挑战。本文围绕HPC计算系统的能量消耗和任务调度研究工作展开,具体包括同构和异构计算环境下的能量感知任务调度和能耗约束任务调度算法。在此基础上,针对大规模计算密集性应用以及高性能计算需求,将所提出任务调度算法部署于高性能计算系统,并应用在航空飞机机翼变形的高效模拟工作。本文的主要工作和创新点如下:(1)研究了HPC系统的能量感知任务调度问题,提出一种基于DVFS技术的能量感知任务调度(EASLA)算法。该算法使用DVFS技术为每个任务分配不同的工作频率,从而有效降低系统的整体能耗,同时考虑系统的服务水平协议(Service Level Agreement,SLA)的完工时间和能耗两个衡量指标。算法首先为每个任务找到最大的独立任务集,以增加使用松弛调度的并行性。接着为非关键任务分配松弛调度,以最大限度地减少能耗。EASLA算法能够实现能耗和性能之间的权衡,能有效降低计算集群的能量消耗。(2)与同构计算集群相比,异构计算集群中各计算节点的计算能力和能量消耗存在显着差异。因此,在研究工作(1)的基础上,进一步分析了面向异构计算集群的任务调度和能量消耗问题,提出一种面向异构计算系统的能量感知任务调度(HD-EASLA)算法。分别构建异构计算节点模型、能量消耗模型和节点通信模型。详细设计了算法在异构计算系统下的任务调度过程和需要考虑的各种约束条件。该算法根据应用程序的能耗约束,为各个计算任务分配合适的计算节点,并使用DVFS技术调整各计算节点的工作频率,从而有效降低系统的整体能耗。分别使用分子动态编码程序(Molecular)和声纳数据流应用程序(DSP)两组实际应用程序的任务调度实验来评估所提出算法的有效性。(3)研究工作(1)和(2)的任务调度算法优化目标是调度长度和能耗最小化,但此类方法需要大量迭代操作以求解全局最优解,计算复杂度太高。因此,本工作进一步提出了一种基于能耗约束的任务调度算法,通过对计算集群的总体能耗进行约束使得在满足约定能耗的条件下实现任务调度优化。该算法应用于HPC计算系统中的应用程序,可以在满足给定能耗约束的条件下,对计算任务进行调度优化,以实现调度长度最小化。提出一种基于能耗水平的任务预分配机制,为任务分配的能耗约束提供了严格的依据。进行一系列仿真实验以验证所提出算法的有效性。实验结果表明,所提出的算法能够对未分配的计算任务进行能耗预测,在能耗约束下获得更优的任务调度方案。该算法在性能上明显优于基于能耗最小化的任务调度算法。(4)将研究工作(1)至(3)的并行任务调度算法应用于实际高性能计算应用领域,提出一种基于高性能计算的网格变形并行算法及其在航空飞机机翼变形模拟的应用。分别提出径向基函数和Choleskey分解方法的并行化算法,根据径向基函数和Choleskey分解方法,实现网格变形并行算法最后,将所提出的网格变形并行算法分别应用于航空飞机机翼变形和航空结构动力学气动弹性分析。实验结果表明所提出的并行任务调度算法能够有效提高网格变形算法的运行性能。本文工作具有重要的研究和实际应用价值,特别在高性能计算和节能环保时代背景下,充分利用高性能计算和并行计算资源,研究了多种任务调度算法以有效降低计算系统的能量消耗问题。并且探索了HPC计算技术在航空领域的应用,为其他领域的实际应用研究奠定了坚实基础。
杜炳鑫[6](2019)在《流声分解方法源项分析及改进研究》文中提出本文针对原始流声分解法流噪声预报结果中混有不稳定伪声压力的问题,开展流声分解法源项的来源、作用和不稳定源项分解研究,提出改进的流声分解方法,研究改进方法在各类层流和湍流噪声中的适用性,开发高效的改进流声分解法计算平台。经过严格数学推导,等熵状态的流声分解法方程与未简化的Lighthill方程具有相同表达形式,相较传统Lighthill方法,流声分解法额外考虑了由流场压力时间导数和负向不可压动量通量、粘性应力所产生的单极子和四极子声源。其声学连续性方程中的压力源项S1为单极子声源,动量方程中的声学对流项和速度源项S2、扩散项和粘性源项分别与可压流动量增量、粘性应力增量所产生的四极子声源相对应。流声分解法的压力源项S1、速度源项S2均是具有明确物理含义的声学源项,不可随意忽略。基于源项分解方法的流声分解法源项作用分析表明,压力源项S1、声扰动速度散度和流速相互作用所形成的速度子源项S2.1是声学辐射源项,而由声扰动速度及其方向上流速梯度相互作用所形成的速度子源项S2.2是造成流声分解法声场压力失稳的主要源项且其声学辐射能力较差。本文研究表明,声学粘性扩散项可减小声场的不稳定压力,但多数粘性源项反而会诱发速度子源项S2.2进一步失稳。本文提出声学方程中删除不稳定源项S2.2以及诱发其失稳的粘性源项的改进流声分解法Ⅰ(m)。本文研究表明,改进后的流声分解法可有效预测层流状态的自由和壁面剪切流噪声。对于湍流噪声,改进流声分解法Ⅰ(m)可有效用于采用雷诺平均湍流模型的壁面剪切流噪声以及采用滤波N-S方程(FNSE)方法的自由剪切流噪声预报。本文提出改进流声分解法Ⅰ(m-c),该方法通过采用速度源项控制函数,可有效抑制FNSE方法所得到的复杂壁面剪切流场对改进流声分解法Ⅰ(m)声场不稳定压力的诱发作用,适用于低马赫数下各类层流和湍流噪声的预报。为了加快声学计算速度、消除流场网格不合理分布对声学结果的影响,本文开展了流场、声场采用两套网格方法对声场预报的影响,并建立声场网格匹配原则。通过合理选择插值函数,保证重构流场变量连续变化,两套网格方法既能准确获得流场压力、速度分布所引发的流噪声源项,又能排除流场网格不合理分布对流噪声预报结果的影响。使用两套网格方法可提高计算效率且准确地完成流噪声预报。本文建立了采用两套网格方法以及基于MPI信息传递的区域分解并行计算方法,对声学对流项进行优化处理,并可联合Fluent软件的高效改进流声分解法并行计算平台。测试结果表明,高效流噪声计算平台可有效用于低马赫数下各类静止壁面和自由剪切流声场的预报。
刘毅[7](2018)在《粘弹性流体的宏-微观耦合并行数值模拟关键技术研究》文中提出粘弹性流体及粘弹性流体的控制技术被广泛应用在工业生产中。近些年来,高性能计算发展迅速,开展关于粘弹性流体大规模并行数值模拟的研究,可以为流体工程计算提供有效的科学和实践参考。而目前主流的粘弹性流体数值求解器在并行可扩展性方面仍存在着明显的缺陷,不能有效利用大规模的并行计算资源。因此,本课题针对粘弹性流体的大规模并行计算所面临的挑战,从宏-微观耦合求解器设计、代码实现以及并行算法优化等方面展开研究,主要工作和创新体现在:1.宏-微观耦合多尺度并行数值求解器BCF-FOAM的设计与实现本课题在开源CFD软件平台OpenFOAM上开发了一种粘弹性流体的多尺度数值求解器BCF-FOAM。通过深入分析布朗构象场(BCF)方法的基本原理和数学模型,在开源CFD平台OpenFOAM设计了数值求解器BCF-FOAM的总体架构;根据粘弹性流体宏-微观耦合数值模拟的求解流程,基于PISO迭代算法设计并实现了一种基于BCF方法的宏-微观耦合数值求解算法,并利用聚合物稀溶液的二维模拟应用测试和分析了BCF-FOAM在误差允许范围内是否可用。2.基于OpenFOAM实现了一种同时将网格和构象场进行分解的混合分解并行算法通过我们对粘弹性流体宏-微观耦合并行数值模拟的计算特征的深入分析,发掘了布朗构象场方法中微观构象场方程求解彼此相互独立的特点,本课题基于OpenFOAM平台实现了一种网格和构象场混合分解的并行数值求解算法,该算法在传统CFD并行计算方案中网格区域分解的基础上,引入构象场方程分解,显着提升了模拟问题的并行规模。3.混合分解算法的多线程优化与通信优化为了使多核处理器的优势可以得到进一步发挥,使程序潜在的数据并行性被发掘出来,我们引入了OpenMP的多线程技术,利用MPI和OpenMP的多级并行框架,对宏-微观耦合数值模拟求解器进行了优化,为我们下一步把构象场进行多线程优化的工作提供了一种思路。通过深入分析混合分解算法中的通信过程和平均通信时间,利用组通信中的广播和归约操作来替换原来主进程和对应从进程间的点对点通信操作,优化后的数值求解器的执行时间减少了近20%。
李豪[8](2018)在《HopeFOAM高效数值求解关键技术研究》文中研究指明在高性能计算技术的推动下,数值模拟逐渐成为继物理实验与理论分析之后,科学研究的第三范式。作为模拟的典型代表,计算流体力学(CFD)模拟由于其成本低廉、灵活度高、易于重复等显着优点,在学术界和工业界都获得了大量关注。由于CFD是一门融合了物理/化学/生物、数学以及计算机科学等多个领域的综合性交叉学科,其完整的模拟过程离不开数值专家、计算机专家以及领域专家等多用户的共同参与和相互协作。为了便于开发和使用,当前主流的CFD模拟平台都采用框架式结构。然而,由于框架中包含了建模、离散以及求解等诸多复杂过程,因此,从框架的设计开发、配置使用到优化分析,都面临着一系列的困难与挑战。本文围绕CFD模拟框架中所面临的设计难、使用难、优化难以及分析难这四个典型问题,基于HopeFOAM模拟框架,对高效并行数值模拟关键技术展开研究,主要工作和创新点体现在:·在HopeFOAM框架中基于PETSc设计实现了高效的数值求解核心(第二章)本文深入分析了HopeFOAM模拟框架的数值求解需求,基于PETSc求解库设计了高效数值求解模块的整体框架,该框架充分考虑了HopeFOAM对低阶FVM以及高阶DGM等多种离散格式的支持,以及HopeFOAM对高效数值求解的需求;基于所设计的数值求解框架,实现了完整的数值求解模块,并根据线性方程组系统本身的结构特点,采用压缩存储和整体拷贝等技术对矩阵的组装过程进行了优化,大大提高了数值求解模块的整体效率;基于CFD领域的典型Benchmark案例,验证了所实现的基于库的数值求解模块的正确性和有效性。该研究成果提高了HopeFOAM框架的数值求解效率,进而提高了其有效性。实际上,该研究虽然是基于HopeFOAM平台展开,而其关于核心模块设计的相关成果可以推广到其他类似的模拟平台,具有一定的普适性。·在HopeFOAM框架中首次提出了指导模拟参数配置的网格—阶次无关理论(第三章)本文在对传统的适用于低阶模拟的网格无关理论做了延伸和抽象后,提出了更为通用的网格—阶次无关理论;详细定义了该理论中的相关概念,如网格—阶次配置对、网格-阶次无关配置对以及最优网格—阶次无关配置对;给出了该理论在基于HopeFOAM平台的间断伽辽金(DGM)模拟中进行应用的完整流程和所需要的关键技术;基于CFD领域的典型Benchmark案例验证了该理论对于指导模拟过程中网格尺寸和离散阶次的配置的实用性。该研究成果为基于HopeFOAM平台的高阶DGM模拟最优参数配置提供了理论指导,提高了其易用性。需要说明的是,网格—阶次无关理论与具体的离散方法无关,因此,除本文所提到的间断伽辽金方法外,该理论也适用于高阶有限元、高阶有限体积等其他方法,具有一定的通用性。·对基于HopeFOAM框架的并行模拟通信性能进行了优化,提高了其可扩展能力(第四章)本文深入分析了基于HopeFOAM并行模拟的性能瓶颈,采用冗余通信识别和消除技术对多相流模拟过程中的通信开销进行了优化;基于对PCG求解算法的深入分析,通过算法重排技术实现了数值求解过程中的通信隐藏;通过在PCG算法中实现非阻塞集合通信,进一步增加了计算与通信的隐藏;基于CFD领域的Benchmark案例验证了相关优化的正确性和有效性,结果表明使整体的模拟性能最高提升了60%以上,可扩展能力最高提高了3倍左右。该研究解除了基于HopeFOAM框架的大规模并行CFD模拟中,通信瓶颈所带来的可扩展问题,提高了平台的实用性。·在HopeFOAM框架中设计实现了面向多领域用户的轻量级综合性能分析工具Mu P(第五章)本文分析了HopeFOAM模拟框架的性能分析现状和需求后,设计了面向多领域用户的综合性能分析工具Mu P;详细设计了Mu P的功能模块和性能数据;基于所设计的框架结构、功能模块以及性能数据,对Mu P的关键实现技术,如轻量级探测、动态性能分析、静态性能分析以及交叉可视化等进行了详细阐述;基于CFD领域的典型Benchmark案例验证了性能分析工具的功能和开销,结果显示该工具的整体开销在5%以内。该研究成果为HopeFOAM框架的性能优化提供了重要支撑,进而提高了其可靠性。此外,该研究成果充分考虑到参与到框架中多领域用户的个性化需求,为框架式软件的性能分析提供了借鉴和参考。
朱然[9](2018)在《天基光学目标检测与跟踪实时处理技术研究》文中认为天基光学监视系统通过部署在天基平台的传感器及时探测、跟踪并识别对国家安全构成威胁的敌方弹道导弹、航空器与航天器等来袭目标,对增强我国的战略威慑能力与战略防御能力,维护国家安全具有重大意义。目标检测与跟踪技术是天基光学监视系统信息处理的核心技术,是实现对导弹目标弹道估计与识别的前提,对天基光学监视系统的探测能力有着重要的影响,一直以来是监视探测中的重点与难点。天基光学监视卫星需进行不间断地全天候监视,且采用大面阵传感器成像体制具有探测范围广、星上下传数据率大等工作特点。信息处理系统实现目标检测、目标跟踪的计算规模大、处理性能与可靠性的要求高。目标检测与跟踪的实时性要求更是对系统软硬件架构设计、并行算法设计与可靠性设计等方面提出新的更高挑战。因此高性能高可用并行计算的实时目标检测与跟踪技术同样是信息处理的关键技术。第二章开展针对面阵传感器成像弱小运动目标检测问题的研究。单帧图像背景抑制采用有限变分模型合理估计背景图像中的云层边缘等细节信息,提升背景抑制的效果。在此基础上,针对序列图像运动目标检测问题构建最优化模型,以充分利用历史帧的序列图像数据。针对传统批处理算法计算效率低的问题,基于单帧图像背景抑制模型与有限变分模型进行了相关的理论推导,并提出改进的序贯处理算法。基于有限变分理论的序列图像运动目标检测算法能够在利用多帧图像数据进行背景抑制的同时,给出弱小运动目标的检测结果。仿真实验结果表明,本文所提序列图像运动检测算法对帧间亚像元运动的弱小目标可取得较好的检测性能。第三章研究基于背景抑制残差图像进行点目标的像平面跟踪问题,以充分发挥面阵成像点扩散模型相对稳定的优势。并专门对于图像量测中目标交叉、临近飞行时出现的成像重叠现象,以及传统多目标滤波算法无法合理建模的局限,开展相关研究。基于可直接近似多目标状态分布函数的多目标粒子滤波器与带标签随机有限集模型及相关理论,提出带标签的多目标粒子滤波算法。详细阐述相关理论推导与数值实现方法,实现了图像量测下多目标状态的高阶矩迭代滤波。直接采用图像量测进行多目标跟踪,可充分利用图像数据,避免了备选点提取等硬判决造成的信息损失,因此基于图像量测的多目标滤波器可达到较高的跟踪性能。第四章则进一步将研究工作扩展到面目标的跟踪问题,同时引入多目标状态平滑,以充分发挥大面阵传感器高帧频成像的优势。基于低门限融合检测提取的有限集量测,针对量测集合中杂波源出现的时间与空间分布特性,研究杂波参数未知观测模型下的多目标平滑算法。通过在线估计目标状态与杂波源分布情况,可对未知杂波分布具有一定的自适应能力。所提目标特征提取方法与自适应杂波状态估计多目标平滑算法适用于点、斑、面等各类形态目标,克服了图像量测多目标跟踪中稳健性不高、观测模型建模精度要求高等局限。可使信息处理系统形成在线回溯能力,仅在短时群延迟后给出更为精确的目标状态估计,有效提升高帧频成像系统的多目标跟踪性能。第五章重点关注高帧频大面阵成像弱小运动目标检测与跟踪实时处理的高性能并行计算技术。在对大视场光学图像进行数据并行的基础上,结合OpenMP并行工具,在集群架构上开展基于共享内存模型的并行图像处理算法研究。对于弱小运动目标融合检测形成的有限集量测,基于MPI并行工具开发并行粒子PHD平滑器。可以更小规模的硬件设备实现大视场低门限的弱小目标实时跟踪,且具备对背景杂波的自适应能力,跟踪性能与图像量测下的检测前跟踪算法相当,为PHD平滑器等多目标跟踪算法应用于实际系统提供了技术支持。本文立足天基光学大面阵成像体制下信息处理的应用需求,提出了适用于弱有形目标检测与跟踪的实时处理算法。论文研究成果完善了弱小运动目标检测与跟踪理论,为天基光学大面阵成像体制下信息处理的系统设计提供理论指导,并为其工程化实现提供高性能并行计算的技术支撑。
王曦[10](2018)在《LBM多相流大规模异构协同众核并行算法研究》文中研究说明格子玻尔兹曼方法(Lattice Boltzmann method,LBM)是计算流体力学(Computational Fluid Dynamics,CFD)中广泛使用的方法,具有天然的并行性,尤其适合大规模并行计算。近年来,高性能计算机技术在不断的发展,采用异构众核处理器作为加速部件的异构众核超级计算机已渐渐成为主流。本文在典型的异构众核超级计算机天河二号上,针对开源3D多相流LBM软件OpenLBMFlow开展了大规模异构并行计算研究。主要工作和贡献如下:(1)对基于格子BGK和Shan-Chen模型的LBM多相流算法和OpenLBMFlow程序实现进行了深入剖析,根据典型异构并行体系结构平台特点,设计了多层次的LBM流场区域分解方法。分别从任务层、异构协同层、数据层、指令层方面描述了LBM多相流模拟的多层次多粒度并行性,提出了大规模异构协同众核并行算法,并对算法的性能瓶颈进行了理论分析。在此基础上从通信、负载均衡以及LBM算法层面提出了相应的优化策略。(2)在天河二号超级计算机上,采用OpenMP4.5加速器模型,实现了OpenLBMFlow基于MPI+OpenMP4.5+SIMD的CPU+MIC异构协同并行模拟。首先通过一系列串行代码优化大幅提升了CPU和MIC上LBM代码的单线程效率,相比于基准测试代码分别获得了2.5和2.8的加速比。进行SIMD优化后,CPU性能进一步提升了1.5倍,MIC性能则提升超过2倍。通过负载均衡优化和异步计算通信重叠,与纯CPU并行模拟相比,异构协同取得了不错的性能加速比。以128个节点结果作为基准,程序在2048个节点时获得了超过80%的效率,展示了不错的弱可扩展性。(3)探索了Python大规模高性能计算和性能优化方法,实现了国际上首个完全基于Python的大规模并行三维LBM多相流模拟开源代码PyLBMFlow。根据Python语言特性,提出了一系列性能优化方法并对LBM边界算法进行了重构,大幅提升了Python计算效率,优化后串行性能相对于基准实现提升达两个量级。在此基础上,基于Mpi4py和Cython实现了MPI+OpenMP混合并行,在天河二号超级计算机上成功模拟了LBM气液两相流,并行规模1024结点,并行效率超过80%。
二、高性能网格并行计算(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、高性能网格并行计算(论文提纲范文)
(1)面向CPU,GPU及其异构形式的混合模拟算法的高性能并行优化(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 数值模拟基于高性能计算的发展 |
1.2 数值模拟在空间科学中的应用 |
1.3 国内外研究现状 |
1.4 本文主要创新点 |
1.5 本文的主要内容与结构安排 |
第2章 求解空间中等离子体问题的混合模拟算法及其并行基础 |
2.1 方法概述 |
2.2 物理模型 |
2.3 程序结构分析 |
2.4 并行设计理论概述 |
2.5 高性能计算的两种设计思想 |
2.6 软件与硬件设施 |
2.7 并行化性能要求 |
2.8 程序运行方法 |
2.9 本章小结 |
第3章 混合模拟程序的并行优化与结果分析 |
3.1 基于GPU的并行混合模拟 |
3.1.1 CUDA并行技术 |
3.1.2 GPU并行程序流程 |
3.1.3 主要优化方法 |
3.1.4 基于GPU的混合模拟运行结果 |
3.2 基于MPI的并行混合模拟 |
3.2.1 MPI并行技术 |
3.2.2 MPI并行程序流程 |
3.2.3 相关优化处理 |
3.2.4 基于MPI的混合模拟运行结果 |
3.3 对使用MPI进行通信的多GPU并行的讨论 |
3.4 本章小结 |
第4章 基于混合模拟分析腔密度对月球尾流形成静电激波的影响 |
4.1 简介 |
4.2 混合模拟结果 |
4.3 本章小结 |
第5章 结论与展望 |
5.1 论文总结 |
5.2 进一步工作的方向 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(2)DSMC/PIC等离子体羽流的大规模并行计算(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 稀薄空气动力学简介 |
1.1.2 等离子体羽流的简介 |
1.1.3 等离子体羽流模拟的并行计算需求 |
1.2 高性能计算技术及平台 |
1.2.1 高性能计算平台发展简介 |
1.2.2 并行编程模型 |
1.2.3 并行优化技术 |
1.3 国内外研究现状 |
1.3.1 DSMC并行算法的研究现状 |
1.3.2 DSMC/PIC耦合并行算法的研究现状 |
1.4 本文主要工作 |
第二章 DSMC方法和PIC方法 |
2.1 DSMC方法基本理论及实现 |
2.1.1 DSMC基本理论 |
2.1.2 DSMC计算流程 |
2.1.3 模型与边界条件 |
2.2 PIC方法基本理论及实现 |
2.2.1 PIC基本理论 |
2.2.2 PIC实现流程 |
2.2.3 电势分布求解 |
2.2.4 PIC方法的边界处理 |
2.3 本章小结 |
第三章 DSMC方法的MPI并行优化设计 |
3.1 串行DSMC程序的基础改进 |
3.2 MPI并行算法设计 |
3.2.1 并行区域划分 |
3.2.2 信息交互设计 |
3.3 动态负载均衡 |
3.3.1 动态负载均衡整体设计框架 |
3.3.2 负载均衡具体实现方案 |
3.3.3 相关参数及调优指导 |
3.4 本章小结 |
第四章 DSMC/PIC耦合及并行算法设计 |
4.1 DSC/PIC的耦合算法设计 |
4.1.1 DSMC/PIC的耦合模式 |
4.1.2 耦合程序间数据交互方式 |
4.1.3 耦合程序的算法流程 |
4.2 耦合程序的并行计算设计 |
4.2.1 耦合程序的并行难点分析 |
4.2.2 耦合程序的并行思路 |
4.2.3 DSMC/PIC耦合程序的并行算法流程 |
4.3 本章小结 |
第五章 性能测试与分析 |
5.1 天河2号测试平台架构 |
5.2 相关评估参数 |
5.3 算例设置 |
5.4 结果分析 |
5.4.1 并行程序的性能分析 |
5.4.2 负载调整后的性能分析 |
5.4.3 增加网格规模后的性能分析 |
5.5 本章小结 |
结束语 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(3)基于OpenFOAM的RBF动网格优化算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 研究意义 |
1.1.2 研究挑战 |
1.2 国内外研究现状 |
1.2.1 CFD模拟相关开发现状 |
1.2.2 运动边界问题研究现状 |
1.2.3 RBF动网格研究现状 |
1.3 研究内容 |
1.3.1 基于贪心选点的RBF动网格原型算法设计 |
1.3.2 面向RBF矩阵系统优化的算法设计 |
1.3.3 RBF动网格并行优化设计 |
1.4 主要创新点 |
1.5 论文的组织结构 |
第二章 基于贪心选点的RBF动网格原型算法实现 |
2.1 OpenFOAM软件架构 |
2.2 RBF动网格算法描述 |
2.2.1 核心算法 |
2.2.2 贪心选点 |
2.3 基于贪心选点的RBF动网格算法实现 |
2.3.1 结构与流程 |
2.3.2 模型动态加载机制 |
2.4 实验与验证 |
2.5 本章小结 |
第三章 面向RBF矩阵系统优化的分块迭代算法设计 |
3.1 RBF矩阵系统结构解析 |
3.2 分块迭代算法原理 |
3.2.1 矩阵构建优化 |
3.2.2 矩阵求逆优化 |
3.3 基于分块迭代方法的算法实现 |
3.4 实验与验证 |
3.4.1 三维游动鱼 |
3.4.2 ONERA M6机翼 |
3.4.3 三维超空泡水翼 |
3.5 本章小结 |
第四章 基于边界重划分的RBF动网格并行优化算法设计 |
4.1 并行可行性分析 |
4.2 改良边界重划分 |
4.3 轻量级集合通信 |
4.4 基于主从模式的算法实现 |
4.5 实验与验证 |
4.5.1 并行提升测试 |
4.5.2 并行效率测试 |
4.6 本章小结 |
第五章 结束语 |
5.1 工作总结 |
5.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(4)面向天河二号的大规模粒子输运异构计算(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.4 本文的研究内容 |
1.5 论文结构 |
第二章 相关工作 |
2.1 粒子输运模拟的理论基础 |
2.2 异构体系架构 |
2.3 粒子输运异构加速的发展 |
2.4 天河-2A硬件平台及软件环境 |
第三章 确定性粒子输运异构计算 |
3.1 问题提出 |
3.2 相关研究 |
3.3 确定性粒子输运可扩展并行算法 |
3.4 实验与讨论 |
3.5 本章小结 |
第四章 非确定性粒子输运异构计算 |
4.1 问题提出 |
4.2 非确定性粒子输运数据级并行算法 |
4.3 实验与讨论 |
4.4 本章小结 |
第五章 结束语 |
5.1 本文工作总结 |
5.2 未来工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(5)面向高性能计算的能耗感知任务调度算法及应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 任务调度算法 |
1.2.2 能量消耗优化 |
1.2.3 动态电压调整技术 |
1.2.4 网格变形技术 |
1.3 面临的挑战 |
1.4 研究目标和研究内容 |
1.4.1 研究目标 |
1.4.2 研究内容 |
1.5 本文组织结构 |
第2章 相关理论 |
2.1 计算系统模型 |
2.1.1 单处理器计算系统模型 |
2.1.2 同构多处理单元计算系统模型 |
2.1.3 异构多处理单元计算系统模型 |
2.2 任务调度技术 |
2.2.1 计算任务模型 |
2.2.2 HEFT任务调度算法 |
2.3 径向基函数和网格变形 |
2.3.1 径向基函数(RBF) |
2.3.2 基于贪婪算法的RBF优化 |
2.4 本章小结 |
第3章 面向高性能计算系统的能量感知任务调度算法 |
3.1 引言 |
3.2 系统模型和问题定义 |
3.2.1 任务调度环境总体架构 |
3.2.2 应用程序模型 |
3.2.3 计算资源模型 |
3.2.4 能量消耗模型 |
3.2.5 问题定义 |
3.3 能量感知任务调度算法 |
3.3.1 ETF操作 |
3.3.2 NCM操作 |
3.3.3 UAME操作 |
3.3.4 时间复杂度分析 |
3.4 实验分析 |
3.4.1 实验环境设置 |
3.4.2 不同任务数量的节能效果分析 |
3.4.3 不同计算集群规模的节能效果分析 |
3.4.4 不同计算成本比率的节能效果分析 |
3.4.5 不同并行度程序的节能效果分析 |
3.5 本章小结 |
第4章 面向异构计算系统的能量感知任务调度算法 |
4.1 引言 |
4.2 系统模型和问题定义 |
4.2.1 异构计算节点模型 |
4.2.2 异构能量消耗模型 |
4.2.3 节点通信模型 |
4.2.4 异构环境下的问题定义 |
4.3 能量感知任务调度算法 |
4.3.1 ETF操作 |
4.3.2 NCM操作 |
4.3.3 UAME操作 |
4.4 实验分析 |
4.4.1 实验环境设置 |
4.4.2 实际应用程序的节能效果分析 |
4.4.3 不同任务数量的节能效果分析 |
4.4.4 不同计算集群规模的节能效果分析 |
4.4.5 不同计算成本比率的节能效果分析 |
4.5 本章小结 |
第5章 基于能耗约束的异构计算系统任务调度算法 |
5.1 引言 |
5.2 系统模型和问题定义 |
5.2.1 应用程序模型 |
5.2.2 能耗约束模型 |
5.2.3 问题定义 |
5.3 基于能耗约束的任务调度算法 |
5.3.1 能耗预测和最小能耗预分配 |
5.3.2 能耗水平预分配 |
5.3.3 RSMECC算法步骤 |
5.4 实验分析 |
5.4.1 实验环境配置 |
5.4.2 随机应用程序的任务调度性能评估 |
5.4.3 并行FFT应用程序的任务调度性能评价 |
5.5 本章小节 |
第6章 基于高性能计算的网格变形并行算法及应用 |
6.1 引言 |
6.2 网格变形并行算法 |
6.2.1 网格变形算法 |
6.2.2 网格变形算法并行优化 |
6.3 航空飞机机翼变形应用 |
6.3.1 ONERA M6 机翼变形 |
6.3.2 DLR-F6 机身变形 |
6.4 航空结构动力学气动弹性应用 |
6.4.1 DLR-F6 WBNP弹性网格变形 |
6.4.2 动态响应过程 |
6.5 本章小结 |
总结与展望 |
参考文献 |
附录 A 发表论文和参加科研情况说明 |
附录 B 攻读学位期间所参加的科研项目 |
致谢 |
(6)流声分解方法源项分析及改进研究(论文提纲范文)
摘要 |
abstract |
变量声明表 |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 计算流体动力声学方法的国内外研究现状 |
1.2.1 直接模拟方法 |
1.2.2 Lighthill声类比系列方法 |
1.2.3 变量分解方法 |
1.2.4 多步混合方法 |
1.3 研究目的 |
1.4 主要研究内容 |
第2章 流声分解法及其声学不稳定研究 |
2.1 概述 |
2.2 流声分解法控制方程 |
2.2.1 Hardin和Pope方程 |
2.2.2 Slimon方程 |
2.2.3 Shen WenZhong方程 |
2.3 流声分解法数值离散 |
2.4 松弛化的声学SIMPLE算法 |
2.4.1 声学动量预测 |
2.4.2 声学压力修正 |
2.4.3 声学动量修正 |
2.5 声学边界条件 |
2.5.1 声学固壁边界 |
2.5.2 声学无反射边界 |
2.6 流声分解法求解步骤及程序实现 |
2.6.1 求解步骤 |
2.6.2 程序实现 |
2.7 流声分解法声学不稳定现象研究 |
2.7.1 单圆柱绕流噪声 |
2.7.2 时间发展混合层流噪声 |
2.8 本章小结 |
第3章 流声分解法源项的来源及作用分析 |
3.1 概述 |
3.2 流声分解法与LIGHTHILL声类比方法相关性研究 |
3.3 源项分解方法 |
3.3.1 源项分解法研究背景、基本假设和控制方程 |
3.3.2 源项分解方法的数值实现 |
3.4 基于源项分解法的流声分解法源项作用研究 |
3.4.1 壁面剪切流噪声中的流声分解法源项作用研究 |
3.4.2 自由剪切流噪声中的流声分解法源项作用研究 |
3.5 本章小结 |
第4章 流声分解法改进研究 |
4.1 概述 |
4.2 不稳定源项S2分解研究 |
4.2.1 不稳定源项S2的分解 |
4.2.2 壁面剪切流噪声中源项S2分解研究 |
4.2.3 自由剪切流噪声中源项S2分解研究 |
4.3 改进流声分解法Ⅰ |
4.3.1 消除不稳定源项S2.2的改进流声分解法Ⅰ |
4.3.2 改进流声分解法Ⅰ在壁面剪切流噪声中的测试 |
4.3.3 改进流声分解法Ⅰ在自由剪切流噪声中的测试 |
4.4 改进流声分解法Ⅱ |
4.4.1 考虑源项S2.2声学辐射能力的改进流声分解法Ⅱ |
4.4.2 改进流声分解法Ⅱ在壁面剪切流噪声中的测试 |
4.4.3 改进流声分解法Ⅱ在自由剪切流噪声中的测试 |
4.5 粘性源项和扩散项作用分析 |
4.5.1 粘性扩散项和粘性源项对流声分解法作用分析 |
4.5.2 各粘性源项对流声分解法作用分析 |
4.5.3 只含粘性源项S7的改进流声分解法Ⅰ(m) |
4.6 本章小结 |
第5章 适用于湍流噪声的流声分解法改进研究 |
5.1 概述 |
5.2 含有湍流粘性源项的流声分解法控制方程推导 |
5.3 改进流声分解法Ⅰ(M)在高雷诺数壁面剪切流噪声中的适用性研究 |
5.3.1 基于URANS以及FNSE湍流方法的圆柱绕流流场分析 |
5.3.2 URANS形圆柱绕流流场对改进流声分解法Ⅰ(m)影响研究 |
5.3.3 FNSE形圆柱绕流流场对改进流声分解法Ⅰ(m)影响研究 |
5.4 改进流声分解法Ⅰ(M)在高雷诺数自由剪切流噪声中的适用性研究 |
5.4.1 空间发展混合层计算设置及流场分析 |
5.4.2 FNSE形混合层流场对改进流声分解法Ⅰ(m)影响研究 |
5.4.3 URANS形混合层流场对改进流声分解法Ⅰ(m)影响研究 |
5.5 适用于高雷诺数复杂流噪声分析的流声分解法改进研究 |
5.5.1 源项S_(2.1)不稳定性抑制方法研究 |
5.5.2 基于人工粘性控制方法的改进流声分解法Ⅰ(m-ar) |
5.5.3 引入速度源项控制函数的改进流声分解法Ⅰ(m-c) |
5.6 本章小结 |
第6章 高性能改进流声分解法计算平台的搭建 |
6.1 概述 |
6.2 流场、声场计算采用不同网格方法对声学预报的影响研究 |
6.2.1 采用两套网格方法的改进流声分解法计算程序开发 |
6.2.2 两套网格方法加速性能研究 |
6.2.3 疏密网格对改进流声分解法声场影响研究 |
6.2.4 不同插值方法对改进流声分解法声场影响研究 |
6.3 改进流声分解法计算程序并行加速研究 |
6.3.1 改进流声分解法并行化计算程序的开发 |
6.3.2 并行化改进流声分解法加速性能研究 |
6.4 改进流声分解法计算程序的性能优化研究 |
6.5 联合FLUENT和GTEA的改进流声分解法计算平台 |
6.5.1 基于两步法的Fluent和GTEA联合流噪声预报平台 |
6.5.2 Fluent的.cas网格文件读入和处理子程序 |
6.5.3 Fluent的.dat二进制结果文件读取子程序 |
6.6 算例测试 |
6.6.1 并列双圆柱绕流噪声 |
6.6.2 三维圆柱绕流噪声 |
6.6.3 自由场方腔绕流噪声 |
6.6.4 管路孔穴绕流噪声 |
6.7 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文和取得的科研成果 |
致谢 |
附录 |
(7)粘弹性流体的宏-微观耦合并行数值模拟关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 高性能计算的飞速发展 |
1.1.2 粘弹性流体数值模拟的重要意义 |
1.1.3 粘弹性流体数值模拟面临的挑战 |
1.2 相关工作 |
1.2.1 宏-微观耦合模拟的发展现状 |
1.2.2 基于Open FOAM平台的流体数值模拟 |
1.2.3 面向宏-微观耦合模拟的并行优化技术 |
1.3 研究内容 |
1.4 论文结构 |
第二章 一种多尺度数值求解器BCF-FOAM的设计与实现 |
2.1 布朗构象场(BCF)方法 |
2.1.1 基本原理 |
2.1.2 基于Oldroyd-B本构方程的宏观模型 |
2.1.3 基于BCF方法的宏-微观耦合模型 |
2.2 基于Open FOAM的 BCF-FOAM总体框架设计 |
2.2.1 BCF-FOAM求解器的总体框架 |
2.2.2 BCF-FOAM求解器的功能模块分析 |
2.3 BCF-FOAM的核心求解算法与实现 |
2.3.1 Open FOAM的编程接口 |
2.3.2 基于PISO的数值求解算法 |
2.3.3 BCF-FOAM求解器的核心代码实现 |
2.3.4 数据后处理 |
2.4 本章小结 |
第三章 一种基于Open FOAM的混合分解并行算法的实现与优化 |
3.1 混合分解并行算法的实现 |
3.1.1 基本原理 |
3.1.2 理论分析 |
3.1.3 核心算法实现 |
3.2 混合分解并行算法的多线程分析与优化 |
3.2.1 研究动机 |
3.2.2 多线程分析与优化的框架设计 |
3.2.3 多线程优化结果与分析 |
3.3 混合分解并行算法的通信优化 |
3.3.1 混合分解并行算法通信模式分析 |
3.3.2 通信优化算法设计 |
3.4 本章小结 |
第四章 实验验证与结果分析 |
4.1 多尺度数值求解器的验证和分析 |
4.1.1 实验平台与算例描述 |
4.1.2 宏观和宏-微观模拟结果对比 |
4.1.3 宏-微观耦合模拟中的微观分子分布 |
4.2 多尺度数值求解器并行性能测试与分析 |
4.2.1 串行模拟性能分析 |
4.2.2 并行模拟性能分析 |
4.2.3 分析与总结 |
4.3 并行优化实验结果分析 |
4.3.1 混合分解并行性能分析 |
4.3.2 通信优化实验分析 |
4.4 本章小结 |
第五章 结束语 |
5.1 工作总结 |
5.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(8)HopeFOAM高效数值求解关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 模拟—科研的第三范式 |
1.1.2 CFD—模拟的典型代表 |
1.1.3 HopeFOAM—先进的模拟平台 |
1.2 相关工作 |
1.2.1 通用CFD模拟框架 |
1.2.2 典型CFD参与者 |
1.2.3 性能分析工具 |
1.3 研究内容 |
1.3.1 高效数值求解模块设计实现 |
1.3.2 实用的网格—阶次无关理论 |
1.3.3 高可扩展并行优化 |
1.3.4 综合性能分析工具设计实现 |
1.4 主要创新 |
1.5 组织结构 |
第二章 HopeFOAM高效数值求解基础:基于PETSc的求解核心 |
2.1 HopeFOAM数值求解需求分析 |
2.1.1 数值求解方法概述 |
2.1.2 OpenFOAM数值求解概况 |
2.1.3 HopeFOAM数值求解需求 |
2.2 基于PETSc的高效数值求解结构设计 |
2.2.1 整体框架设计 |
2.2.2 LDU2CSR:高效矩阵矩阵转换算法 |
2.2.3 求解功能设计 |
2.3 高效矩阵组装技术 |
2.3.1 面向矩阵特征优化:压缩存储 |
2.3.2 基于块优化:整体拷贝 |
2.4 实验与分析 |
2.4.1 案例与平台 |
2.4.2 实验方法学 |
2.4.3 正确性验证 |
2.4.4 有效性验证 |
2.5 本章小结 |
第三章 HopeFOAM高效数值求解理论:网格—阶次无关性 |
3.1 网格无关验证 |
3.1.1 模拟误差 |
3.1.2 网格无关验证 |
3.1.3 自适应加密 |
3.2 网格—阶次无关理论 |
3.2.1 网格—阶次配置对 |
3.2.2 网格—阶次无关配置对 |
3.2.3 最优网格—阶次无关配置对 |
3.3 基于网格—阶次无关的模拟优化 |
3.3.1 整体优化流程 |
3.3.2 误差评价技术 |
3.3.3 曲线拟合技术 |
3.3.4 约束优化技术 |
3.4 实验与分析 |
3.4.1 案例与平台 |
3.4.2 实验方法学 |
3.4.3 Helmholtz方程求解 |
3.4.4 Laplace方程求解 |
3.5 本章小结 |
第四章 HopeFOAM高效数值求解技术:通信消除与隐藏 |
4.1 HopeFOAM并行模拟现状 |
4.1.1 并行可扩展概况 |
4.1.2 HopeFOAM性能瓶颈分析 |
4.2 多相流模拟中的通信消除 |
4.2.1 多相流模拟概述 |
4.2.2 冗余通信消除 |
4.3 PCG算法中的通信隐藏 |
4.3.1 PCG算法概述 |
4.3.2 算法重排 |
4.3.3 非阻塞集合通信 |
4.4 实验与分析 |
4.4.1 案例与平台 |
4.4.2 实验方法学 |
4.4.3 正确性验证 |
4.4.4 可扩展测试 |
4.4.5 三维案例 |
4.5 本章小结 |
第五章 HopeFOAM高效数值求解支撑:MuP性能分析工具 |
5.1 HopeFOAM性能分析需求 |
5.1.1 性能分析意义 |
5.1.2 性能分析技术 |
5.1.3 面向HopeFOAM性能分析现状 |
5.2 MuP性能分析工具结构设计 |
5.2.1 整体框架设计 |
5.2.2 功能模块设计 |
5.2.3 性能数据集设计 |
5.3 MuP性能工具实现关键技术 |
5.3.1 轻量级数据收集 |
5.3.2 动静结合性能分析 |
5.3.3 交叉可视化 |
5.4 实验与分析 |
5.4.1 实验方法学 |
5.4.2 轻量级测试 |
5.4.3 功能性验证 |
5.4.4 实用性验证 |
5.5 本章小结 |
第六章 结束语 |
6.1 研究工作总结 |
6.2 课题研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(9)天基光学目标检测与跟踪实时处理技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 关键技术问题分析 |
1.2.1 天基光学大面阵传感器 |
1.2.2 弱小运动目标检测 |
1.2.3 高性能多目标跟踪 |
1.3 国内外研究现状 |
1.3.1 序列图像弱小目标检测 |
1.3.2 多目标跟踪 |
1.3.3 高性能并行计算 |
1.4 论文的主要工作和结构安排 |
第二章 基于有限变分理论的序列图像运动目标检测 |
2.1 引言 |
2.2 有限变分理论基础 |
2.2.1 背景抑制建模 |
2.2.2 有限变分函数空间 |
2.2.3 图像恢复算法 |
2.3 单帧图像背景抑制 |
2.3.1 问题模型 |
2.3.2 简化模型求解 |
2.3.3 通用模型求解 |
2.4 序列图像运动目标检测 |
2.4.1 批处理算法 |
2.4.2 序贯处理算法 |
2.5 仿真实验与结果分析 |
2.5.1 民航监视场景 |
2.5.2 多目标仿真场景 |
2.6 本章小结 |
第三章 基于背景抑制图像量测的点目标滤波算法 |
3.1 引言 |
3.2 随机有限集多目标跟踪理论 |
3.2.1 随机有限集 |
3.2.2 有限集统计理论 |
3.2.3 点量测PHD滤波器 |
3.3 图像量测一阶多目标滤波 |
3.3.1 图像量测PHD滤波器 |
3.3.2 一阶多目标滤波器的局限 |
3.4 图像量测高阶多目标滤波 |
3.4.1 多目标粒子滤波器 |
3.4.2 带标签随机有限集 |
3.4.3 带标签多目标粒子滤波器 |
3.4.4 SMC实现算法 |
3.5 仿真实验与分析 |
3.5.1 仿真场景验证 |
3.5.2 图像数据验证 |
3.6 本章小结 |
第四章 基于高帧频运动检测序列的面目标平滑算法 |
4.1 引言 |
4.2 基于运动检测结果的目标特征提取 |
4.3 参数未知观测模型下的多目标滤波 |
4.3.1 杂波参数估计 |
4.3.2 杂波状态建模 |
4.3.3 PHD迭代 |
4.3.4 SMC实现 |
4.4 自适应杂波状态估计的多目标平滑 |
4.4.1 目标与杂波相互耦合的PHD平滑 |
4.4.2 目标与杂波统计独立的PHD平滑 |
4.5 仿真实验与分析 |
4.5.1 仿真场景验证 |
4.5.2 图像数据验证 |
4.6 本章小结 |
第五章 大面阵高帧频成像信息处理高性能并行计算 |
5.1 引言 |
5.2 高性能并行序列图像运动目标检测 |
5.2.1 大规模图像数据并行 |
5.2.2 共享内存多核并行计算 |
5.3 高性能并行网格PHD多目标跟踪 |
5.3.1 PHD平滑的物理解释 |
5.3.2 网格实现 |
5.3.3 并行网格实现 |
5.4 高性能并行粒子PHD多目标跟踪 |
5.4.1 分布内存多核并行计算 |
5.4.2 并行SMC实现 |
5.4.3 性能提升与功能扩展 |
5.5 仿真实验与分析 |
5.5.1 并行序列图像运动目标检测 |
5.5.2 并行网格PHD滤波器 |
5.5.3 并行粒子PHD平滑器 |
5.6 本章小结 |
第六章 结论与展望 |
6.1 主要工作与创新点 |
6.2 后续工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)LBM多相流大规模异构协同众核并行算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 计算流体力学简介 |
1.1.2 高性能计算机简介 |
1.1.3 CFD并行计算方法 |
1.1.4 并行编程模型 |
1.2 研究现状 |
1.2.1 LBM并行计算研究现状 |
1.2.2 OpenMP加速器编程模型研究现状 |
1.2.3 Python高性能程序研究现状 |
1.3 研究内容 |
1.4 论文结构 |
第二章 LBM多相流应用及其并行算法设计 |
2.1 LBM多相流方法和实现流程 |
2.1.1 格子BGK模型 |
2.1.2 Shan-Chen模型 |
2.1.3 边界条件 |
2.1.4 实现流程 |
2.2 异构众核协同并行算法设计 |
2.2.1 异构协同区域分解 |
2.2.2 通信机制 |
2.2.3 异构负载均衡 |
2.2.4 异构计算通信重叠 |
2.3 LBM算法层优化 |
2.3.1 边界反弹格式优化 |
2.4 本章小节 |
第三章 基于OpenMP4.5的LBM多相流异构并行模拟 |
3.1 天河二号 |
3.2 MIC编程 |
3.2.1 CPU+MIC应用模式 |
3.2.2 MIC编程模型 |
3.3 LBM应用性能分析 |
3.4 LBM多相流异构模拟实现 |
3.4.1 串行优化 |
3.4.2 OpenMP线程并行 |
3.4.3 MPI并行 |
3.4.4 基于OpenMP的异构协同并行 |
3.4.5 向量化并行 |
3.5 测试结果及分析 |
3.5.1 实验配置 |
3.5.2 节点内性能 |
3.5.3 大规模并行测试 |
3.6 本章小结 |
第四章 基于Python的大规模高性能LBM多相流模拟 |
4.1 Python高性能计算 |
4.2 Python实现与性能优化方法 |
4.2.1 流场数据结构和计算内核实现 |
4.2.2 串行性能优化 |
4.3 大规模并行计算优化 |
4.4 测试结果分析 |
4.4.1 实验配置 |
4.4.2 测试结果 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
四、高性能网格并行计算(论文参考文献)
- [1]面向CPU,GPU及其异构形式的混合模拟算法的高性能并行优化[D]. 金媛. 南昌大学, 2020(01)
- [2]DSMC/PIC等离子体羽流的大规模并行计算[D]. 张海红. 国防科技大学, 2020(02)
- [3]基于OpenFOAM的RBF动网格优化算法研究[D]. 赵然. 国防科技大学, 2019(02)
- [4]面向天河二号的大规模粒子输运异构计算[D]. 丁胜杰. 国防科技大学, 2019(02)
- [5]面向高性能计算的能耗感知任务调度算法及应用[D]. 胡逸騉. 湖南大学, 2019(01)
- [6]流声分解方法源项分析及改进研究[D]. 杜炳鑫. 哈尔滨工程大学, 2019(04)
- [7]粘弹性流体的宏-微观耦合并行数值模拟关键技术研究[D]. 刘毅. 国防科技大学, 2018(01)
- [8]HopeFOAM高效数值求解关键技术研究[D]. 李豪. 国防科技大学, 2018(02)
- [9]天基光学目标检测与跟踪实时处理技术研究[D]. 朱然. 国防科技大学, 2018(02)
- [10]LBM多相流大规模异构协同众核并行算法研究[D]. 王曦. 国防科技大学, 2018(02)