一、一种两阶段决策树建树方法及其应用(论文文献综述)
马阳玲[1](2021)在《融合先验知识的深度学习方法及其应用》文中提出近年来,深度学习方法已经在很多领域取得了巨大的成功,但这类方法完全抛弃了知识,在面对复杂问题如图像盲去模糊问题时,效果非常不好。为此,我们将先验知识与深度学习方法结合,开展了预定义卷积滤波器网络、基于图卷积网络的多示例学习方法和新方法在医学影像分析上的应用等课题的研究。这些新研究获得了很好的效果,打开了融合知识的深度学习方法研究的新思路,提供了医学影像分析及相关应用的一个基础支撑。卷积神经网络(CNN)广泛地应用于很多领域,然而,在处理很多实际问题时,特别是医学影像分析,我们需要添加一些特定任务的领域知识。在本文中,我们结合领域知识提出了一个新的卷积神经网络:预定义卷积滤波器网络(PCFNet),该网络中第一个卷积层的卷积核被参数可训练的图像滤波器核替换。在可训练参数减少的情况下,我们从理论的角度分析了 PCFNet能够达到与普通卷积神经网络相同的逼近精度。实验结果表明,预定义卷积滤波器网络在CIFAR10/100数据集上获得了很高的准确率,超过了很多卷积神经网络框架,这说明新网络的有效性。另外,预定义卷积滤波器网络在手写体识别数据集(USPS)和医学图像数据集(IDRiD)上获得了最先进的结果,这说明对于一些特殊任务的处理,如手写体识别和医学图像分类,当选择合适的图像滤波器时,该网络优于普通卷积神经网络。此外,在骨折检测上的实验结果表明,基于Faster R-CNN和Schmid卷积滤波器网络的两阶段方法得到了很高的召回率和F1分数,超过了其他两阶段方法,这体现了我们的方法对骨折线的高敏感度,从而获得了更加准确的骨折识别率。多示例学习(MIL)是一类学习从示例包到包标签的映射的方法,而示例间关系是学习这个映射的重要因素。在本文中,我们结合数据中蕴含的结构知识提出了一个新的多示例学习方法:基于图卷积网络的多示例学习(GCN-based MIL)。我们首先利用示例间的结构关系建立包的图结构,然后利用图卷积网络和图注意力机制学习包的嵌入。基于连续函数关于变量排列不变性的基本定理,我们理论地证明了基于图卷积网络的多示例学习方法具有排列不变性。实验结果表明,GCN-based MIL在5个多示例学习基准数据集上获得了很高的准确率,超过了其他多示例学习方法,这体现了我们的方法的有效性。另外,GCN-based MIL在4个医学图像数据集上获得了很高的准确率和AUC,超过了其他相关方法,这体现了我们的方法更适合处理医学高分辨率图像分类。此外,在黑色素瘤检测与病变区域分割任务(ISIC 2017任务)上的实验结果表明,基于图卷积网络的多示例学习方法分别获得了 0.93的AUC和0.699的JA,超过了其他相关方法,这说明我们的方法能有效地辅助黑色素瘤的诊断。
张徐[2](2020)在《共享单车需求量预测及调度优化算法的研究与应用》文中指出共享单车作为第三大公共出行方式,为出行者提供了更多的交通选择。它的出现不仅解决了用户短途出行的痛点,还符合创新、协调、绿色、开放、共享的城市新发展理念。但是由于共享单车企业的大规模增长,管理经验的缺乏导致共享单车发展面临一系列的难题。为此,本文针对共享单车管理部门设计并实现了一款共享单车智能调度原型系统。借鉴传统公共自行车调度管理的研究理论,以调度成本最小化为目标,形成需求分析到需求预测,区域划分到区域调度的解决思路。本文的主要工作如下:(1)提出基于改进随机森林的共享单车需求预测算法(Bike-sharing Demand Forecasting Algorithm Based On Improved Random Forests,IMRF-DF),解决共享单车管理部门对站点车辆投放数量的预测问题。通过分析时间、天气、温度、风速等出行特征对共享单车需求的影响,建立共享单车需求预测模型。在求解模型过程中,引入加权思想,采用Pearson相关系数算法改进特征选择方式,增加特征选择多样性,提高算法预测精度;采用特征区间划分原则,加强特征子集的优良性,避免算法陷入局部最优。在CitiBike数据集上进行实验比较,IMRF-DF算法相较于RF算法在预测精度上提高了约5.13%,证明了该改进算法在共享单车需求预测方面有较大提升。(2)提出基于改进蚁群算法的共享单车调度路径优化算法(Bike-sharing Scheduling Path Optimization Algorithm Based On Improved Ant Colony Optimization Algorithm,IMACO-SP),解决车辆调度路径选择的优化问题。考虑传统人工调度车辆可能会导致的调度路径冲突以及最优调度路径的求解问题,构建以总调度成本最小化为目标的共享单车调度优化模型。在模型求解过程中,采用K-means+关联属性的区域划分原则,将调度问题由全局最优转化为局部最优。改进ACO算法信息素更新原则,通过引用调度净需求量为信息素参数,避免调度路径之间因信息素挥发过快而陷入局部最优。在CitiBike数据集上的实验结果表明,IMACO-SP算法相较于ACO算法在解的准确度上有显着的提高,全局最优解优化了约3.69%,全局平均解优化了约4.60%,解的平均偏差降低了约0.9%,最大偏差降低了约0.49%。该改进算法不仅提高算法的求解速率,而且改善了算法的稳健性。(3)设计并实现了共享单车智能调度原型系统。该原型系统基于B/S架构,采用Java为主要开发语言,MySQL为数据库。原型系统能够实现共享单车调度需求预测,调度区域划分以及调度路径生成等功能,并将结果进行可视化展示。
邓煜[3](2020)在《基于随机森林的工业螺丝数据分析研究》文中研究说明目前,我国在电子产品装配线上主要以人工装配为主,约30%的操作是工人通过掌上型螺丝机对电子设备的微小型螺丝进行锁附,然而人工装配在面对当今庞大的生产需求时问题频出。近年来,以自动螺丝机为代表的工业化和机械化生产模式极大地提高了生产效率,同时降低了生产成本。自动螺丝机操作过程中很重要的一个步骤是螺丝锁附结果的判别,判别准确率的高低对生产效率起着至关重要的作用。因此,“高精度”指标成为螺丝锁附结果判别的首要要求。本文以螺丝锁附序列数据为研究内容,以机器学习中分类算法和特征选择算法为研究技术,对螺丝锁附结果进行判别研究。主要工作有:第一,为了解决螺丝锁附数据维度高、不等长,无法直接使用机器学习算法进行建模的问题,使用了一些数字特征(如均值,方差等)来刻画螺丝锁附过程中数据的波动性,从而代替原始数据进行后续建模工作。第二,为了处理数据不平衡问题,提出了基于随机森林的不平衡数据特征选择方法来验证数字特征的有效性,剔除无用特征。相较传统特征选择方法,该方法更适合对不平衡数据进行特征选择。第三,为了解决螺丝数据在相似类别间易发生误判的问题,通过使用概率主成分分析对数据相似性进行度量,将相似类别通过聚类方法归在同一相似组中,然后对各组分别使用随机森林算法建立分类模型,最终以先确定数据所属组,再由组内分类器分类的方式对螺丝锁附结果进行判别。为了验证各方法有效性,本文收集自动螺丝机在锁附操作中产生的螺丝数据,进行了基于随机森林的不平衡数据特征选择,基于概率PCA和随机森林的多步锁附结果判别实验。从模型评价指标中可以看出,相比自动螺丝机使用的阈值判定法和经典机器学习分类算法,本文方法具有更高的精确度、召回率、F值,解决了因数据不平衡造成的召回率过低的问题。
王中君[4](2020)在《不确定性条件下的哈尔滨市水资源优化配置研究》文中研究说明水资源是人类社会赖以生存和发展的核心自然资源,在人口增长、城市化的共同推动下,世界水需求急剧增长,全球水危机日益严峻。近年来,中国城市化进程加快导致城市需水大幅增加,加上水资源时空分布不均及水资源管理落后使得水资源供需矛盾及水资源安全风险加剧。因此,以城市绿色可持续发展为原则对水资源进行优化配置以提高水资源利用效率及促进水资源供需平衡显得尤为重要,也对促进城市社会、经济、生态环境的协调可持续发展具有深远意义。以往研究没有全面考虑城市水资源系统存在诸多不确定性和动态复杂性,使得传统模型在实际应用中具有局限性,本研究考虑了水资源管理中的多重不确定性,构建新的适用于动态且持续的水资源长期规划数学模型,以便为管理者在不同规划时期提供实时合理的优化配水方案。首先,在传统区间两阶段随机规划(Inexact two-stage stochastic programming,ITSP)模型的基础上,将城市降雨-径流中存在的信息不确定性考虑其中,引入线性部分信息(Linear partial information,LPI)理论分析流量概率分布,建立区间两阶段-部分信息模型(Interval Twostage Partial Information Programming Model,ITPM);其次,考虑到水资源长期规划问题中管理过程的时间动态性,将ITPM与多阶段随机规划(Multistage stochastic programming,MSP)方法耦合建立了区间多阶段-部分信息模型(An inexact multi-stage interval-parameter partial information programming model,IMIPM);最后,将新建立的模型应用在哈尔滨市水资源管理系统中,在不同规划时期把多水源(地表水和地下水)供给到多需水部门(生活用水、工业用水、农业用水和生态用水),最终达到社会、经济、生态环境的协调可持续发展的目标。结果表明:(1)与传统水资源管理模型相比,ITPM模型能有效处理不确定条件下的随机问题和区间问题,通过该模型分析哈尔滨市水资源配置得到4种流量水平分布情景,克服了降雨-径流等不确定性因素对配水系统收益的影响,能有效平衡经济效益和缺水惩罚风险。(2)在ITPM模型的基础上加入MSP方法得到的IMIPM可以同时处理降雨-径流信息的不确定性、水资源长期规划中时间序列的动态性以及以联合概率和区间值表示的其它不确定性。根据哈尔滨市水资源和气候特点将规划时段分为夏半年和冬半年,通过模型得到每个时段的最优解,从而取得全规划期的最优配置策略。(3)在两种模型下哈尔滨市的配水趋势是相同的,都应保证先决用水需求,在满足用户基本用水后,根据配水利益及最大用水量约束将剩余水量依次分配给生活、工业、生态和农业用户。此外,根据两种模型结果显示管理者能根据发生不同来水量水平的概率来预测选择积极或保守的配水方案,增加了决策的灵活性。总之,将区间两阶段随机规划、多阶段随机规划以及线性部分信息理论耦合用于城市水资源优化配置是对传统模型的改进和发展,得到的优化配置方案以区间形式给出,更真实地反映实际城市水资源管理情况,并为管理者提供决策空间和技术支持,促进社会、经济、资源及生态环境的绿色可持续化共同发展。
陆旭[5](2020)在《Spark平台下并行决策树算法研究》文中指出数据挖掘技术是对大规模数据集进行探索的一个重要手段,它揭示了各个数据集中隐藏的规律,在不同的场景中应用这些规律可以很直观地解决面临的问题和困难。决策树分类技术作为数据挖掘方法中的一个重要分支,它的易于理解性和高度的操作自由性,使得决策树分类方法在生活的得到了广泛的应用,随着分布式系统架构的普及,决策树算法以其强大的平台适应性,在各大分布式平台上得到了并行实现,其中具有代表性的分布式平台有Hadoop和Spark。分布式并行决策树算法的出现是对传统决策树算法的一次重大变革,它把决策树模型的构建过程从原始的单机操作中解放了出来,并采用多机共同计算的方式来完成决策树的构建,多机方式的优势在于计算的任务不再集中于一台机器,而是把任务在集群中各个数据节点均衡地分配,各个数据节点相互配合共同完成高强度的计算任务,所以多机方式不会对数据节点的配置有很高的要求。此外多机方式的分布式集群中各个数据节点是相互独立的,数据节点分配到的计算任务可以并行地执行,相比于原来的单机等待资源释放型计算,分布式集群的运算效率有了很大的提升。在众多分布式并行决策树算法中,广为使用的是基于内存计算的Spark平台决策树算法(MLlib DecisionTree,本文简称MLDT)。Spark平台的数据运算速率比Hadoop平台运算速率快10-100倍,而且更加适用于处理大规模的数据集,因此使用Spark平台训练大数据集的决策树模型会更加地迅速。但Spark平台的MLDT算法也存在很多的缺点,如集群中分布式构造决策树的数据节点间的信息传递量较大造成较高的网络资源占用,以及树节点分裂时信息熵的计算次数较多等。本文主要以MLDT为研究的基础,提出了基于Spark平台的并行决策树算法(SPDT)。SPDT主要的改进有以下三个方面:首先对训练决策树的数据集进行预处理,采用按列分区的方式重新划分数据集,保持完整的属性存储于分布式集群的各个数据节点,从而在建树过程中独立地完成信息熵的计算,减少因节点间信息传递而造成的网络资源的占用。然后对存储在数据节点中的数据进行压缩,为计算任务节省更多的空间。最后采用了基于边界点类别判定的连续属性离散化方法来优化算法,减少信息熵计算的次数,并使用加权平均信息增益比作为选择树节点的标准,降低树节点的选择对多属性值的属性的依赖。实验验证结果表明,本文对算法的改进提高了分布式决策树的树模型建树的效率,并保持了与MLDT算法相似的分类精度。
徐兵[6](2020)在《无人驾驶汽车车辆障碍物检测及换道决策研究》文中指出随着社会和经济的发展,无人驾驶的概念已逐渐走入日常生活。相对于有人驾驶系统,无人驾驶能够避免因驾驶员注意力不集中等原因导致的交通事故,并且能够解放驾驶员的双手。人们对于无人驾驶所带来的便捷性与安全性充满了向往,同样无人驾驶也吸引着广大研究人员的关注。但目前无人驾驶的实际落地仍然存在不小的挑战,其中亟待解决的主要问题包括:环境感知中障碍目标检测的精度,以及车辆自主决策的准确性与安全性。本文针对无人驾驶环境感知技术中存在的车辆障碍物检测精度低及速度慢等问题行了针对性的改进,并对车辆自由换道决策行为进行了建模分析。针对基于激光雷达的传统栅格化车辆目标检测方法中存在的聚类准确率低、超参数多等问题,在现有的快速密度峰值聚类算法(DPC)的基础上提出了基于相互近邻的自适应合并密度峰值聚类算法(MNN-ADPC);针对基于激光雷达的神经网络车辆目标检测方法中存在的点云特征提取不足以及损失约束不合理等问题,提出了优化特征提取模块与损失项的改进三维目标检测网络;针对车辆自由换道行为由于受影响因素较多而难以准确预测的问题,引入梯度提升决策树进行特征变换,结合逻辑回归,构建融合决策模型对车辆自由换道行为进行分析。本文的主要研究工作和成果如下:1)针对基于激光雷达的传统栅格化车辆目标检测方法中,障碍栅格聚类时采用的传统聚类方法存在聚类精度低及速度慢等问题,同时在实际应用中,超参数过多等问题严重影响了聚类算法准确性和适应能力。通过对现有的DPC算法的初始聚类中心选择、待分配点划分等策略进行改进,提出了基于相互近邻的自适应合并密度峰值聚类算法(MNN-ADPC)。改进的聚类算法采用较宽松的初始聚类中心选择方式,并结合后续的自适应合并策略,解决了采用固定阈值筛选方式存在的类簇中心漏选的问题。同时,针对原始快速密度峰值聚类算法中采用的最近邻划分策略存在的误划分情况,改进聚类算法中采用了更加鲁棒的相互近邻划分策略,解决了嵌入型数据中存在的误划分问题。通过在多个数据集上的对比实验,结果表明了所提出的基于相互近邻的自适应合并密度峰值聚类算法具有更好的准确性与适应性。同时,相较于原始的快速密度峰值聚类算法,改进的聚类算法具有更少的超参数量,无需人工参与。在真实的无人驾驶环境中,基于相互近邻的自适应合并密度峰值聚类算法能够获得更加准确的聚类效果。2)针对现有基于激光雷达的神经网络车辆目标检测方法中,三维车辆目标检测网络由于受到点云稀疏特性的影响,对点云特征的提取存在较大的不足等问题,基于现有的激光雷达点云三维物体检测网络进行了改进。通过对原始检测网络中的特征提取模块及损失函数进行优化以获得更好的检测效果,提出了改进的三维车辆目标检测网络。针对原始检测网络中特征提取时忽略了不同雷达点信息贡献程度不同的问题,改进的检测网络中通过加入特征权重学习策略,以获得更加有区分性的有效特征。此外,针对原始检测网络中存在的车辆角度约束不合理等问题,通过加入正弦函数变换,解决了车辆角度损失不合理对模型检测效果的影响。通过在公开数据集KITTI上的实验对比,结果表明了所提出的基于激光雷达的改进三维车辆目标检测网络的准确性与有效性,相对于原始检测网络,获得了更高的平均检测精度。3)针对车辆自由换道行为由于受影响因素较多而难以准确预测的问题,本文采用梯度提升决策树进行特征变换后,结合逻辑回归构建融合模型,对车辆自由换道决策行为进行建模。在真实的车辆轨迹数据集NGSIM上,通过数据滤波及筛选,构建车辆自由换道行为数据集。并且通过深入分析车辆换道决策的行为过程,挖掘更加有效的换道决策变量,以进一步提升换道决策模型的预测准确率。通过对比实验,结果表明了本文提出的融合决策模型相对于其他单一的模型能够获得更高的预测准确率。此外,新提取的碰撞时间特征在多种评价指标下均被认为是最具影响力的特征,证明了换道决策变量构建的有效性。
王奕森[7](2018)在《随机森林和深度神经网络的若干关键技术研究》文中指出近年来,在大数据、计算能力和机器学习算法的支持下,人工智能得到飞速发展。其中,机器学习算法是人工智能的核心。本文从两类主流的机器学习算法中选取两个代表性的算法进行研究,即集成学习领域的随机森林算法和深度学习领域的深度神经网络算法。针对这两类算法存在的局限和不足,本文从理论和应用等多方面对其进行深入研究并提出相应的解决方案。主要工作概括如下:(1)针对随机森林中决策树对数据适应性差的问题,本文从Tsallis熵的角度优化决策树的分裂准则和建树方法。首先提出一种统一的Tsallis分裂准则一统现有的决策树算法,在此基础上,又进一步提出一种对称的分裂准则及最大相关最小冗余的建树方法,降低决策树建树的贪婪性,提升决策树对数据的适应性。(2)针对随机森林中随机特征子空间选择机制在高维数据下面临的子空间内信息性特征不足的问题,本文提出一种特征变换和分层抽样相结合的特征子空间选取方法。首先,针对随机森林在高维数据下性能不佳的原因给出理论分析,其次,提出基于特征变换和分层抽样的随机森林算法,保证每个决策树节点都包含足够多的信息性特征进行学习。该随机森林算法在无论低维还是高维数据下的泛化性能都很好。(3)针对随机森林目前面临的理论性质与实验性能之间的两难性问题,即实验性能很好的随机森林其理论性质没有保证,而理论性质有保证的随机森林其实验性能又不好,本文提出一种伯努利可控的随机森林算法,其利用两个伯努利分布来帮助选择每个节点使用的分裂属性及分裂点,即以一定的概率使用随机过程或确定性过程来构建随机森林中的决策树。本文提出的伯努利随机森林不仅具有可以被证明的一致性还具有良好的实验性能。(4)针对深度神经网络在噪声标签数据集上性能不佳的问题,本文从子空间维度的角度解释深度神经网络的学习过程。在噪声标签数据集下,神经网络遵循两阶段学习模式:1)早期维度压缩阶段,学习与真实数据分布紧密相关的低维子空间;以及2)后期维度扩展阶段,逐渐增加子空间维度,以适应噪声标签。基于这一发现,本文提出一种维度驱动学习的训练策略,通过调整损失函数,避免深度神经网络学习中的维度扩展阶段。(5)针对深度神经网络在复杂噪声标签下的鲁棒训练问题,本文提出一种迭代学习框架,通过迭代式噪声检测、判别性特征学习和重新加权三个模块相互作用相互提高,学到一种准确的数据表示,不仅可以把类别分开,还能把噪声样本和干净样本分开。该方法不依赖噪声模型从而适用性更广,解决了真实世界数据中经常出现的复杂开放噪声标签的情况,即有噪声的样本具有不包含在训练数据已知类别集合中的真实类别。
李伟[8](2014)在《决策树算法应用及并行化研究》文中研究指明在信息科技飞速发展的今天,各行各业每天都会产生大量的数据,这些数据中蕴含着丰富的知识。对于善于运用数据分析的用户来讲这就是一笔财富,而对于不了解或者不会对数据进行发掘的用户就是数据垃圾。对于不同类型的数据需运用不同的挖掘算法,但传统的数据挖掘算法处理的数据量是有限的,当数据量显着增大时,就需要更合适的数据挖掘算法来处理。云计算是近几年兴起的新概念,在计算机领域,从某种意义上来讲,可以把云计算当做一种网络,一种可以处理海量数据的新模式。开发云计算架构下的数据挖掘系统是当前处理海量数据挖掘的一种趋势。通过对传统算法的改进,将算法移植到云计算平台,借助云技术的并行化处理能力,海量数据的挖掘问题也将迎刃而解。基于以上的研究背景,首先本文将对数据挖掘技术和云计算平台进行研究,然后对数据挖掘决策树算法进行处理,结合实际工作情况,对C4.5算法的应用进行研究,并使用罗比达法则对算法效能进行改进。然后根据海量数据挖掘的要求,将能产生简单决策树结构的算法-CART,进行基于随机森林模型的改进。随机森林模型对于决策树建树的数据类型、数据缺失、属性类别以及决策属性类别多值要求都不高,基于这些优点将CART算法应用到随机森林模型中能克服CART算法的弊端。最后本文将对算法并行化进行研究,通过对几个并行模型的研究,选择最合适的MapReduce编程模型将改进的CART算法实现。通过实验,将改进的CART算法在串行和并行模式下分析大量数据,实验表明算法在有效性、处理速度和加速比等方面都有较好的表现,以此验证算法改进的有效性。
伊卫国[9](2012)在《基于关联规则与决策树的预测方法研究及其应用》文中认为关联规则挖掘(mining association rule)与决策树(decision tree)是模式识别、人工智能、数据挖掘等领域的研究热点,在商业决策、医院病人诊断与治疗规律分析等领域都有着广泛的应用,但目前面临缺少基于特定数据集的扩展研究、预测精度难以进一步提高等诸多挑战。为此,本文研究了关联规则挖掘与决策树算法,重点对关联规则挖掘的扩展研究,包括生成规则数量、挖掘支持度较低的长项目集关联规则以及决策树算法中属性选择标准和多值属性多类标数据决策树的构建等方面进行了深入探讨,开展了如下创新性研究。(1)分析了支持度-置信度-兴趣度模型下的参数意义,并利用回归方法设计了多种规则条数与参数之间的方程。利用复相关系数检验了方程的拟合效果,并采用显着性检验来验证参数的系数是否显着为零。将复相关系数较大的回归方程作为拟合的最优方程。并利用冠心病数据和University of California Irvine(UCI)数据进行了验证。通过选定的最优方程,可以较好地预测给定参数下的规则的数量,同时优化参数的选择以及确定参数的选择范围。(2)提出新的关联规则挖掘模型:模糊递减支持度,置信度。在此基础上,通过分析生成的规则前件与后件的相关性,提出了3种修正模型:模糊递减支持度,置信度,兴趣度模型;模糊递减支持度,双向置信度,兴趣度模型;模糊递减支持度,重合度,兴趣度模型。根据医院采集的冠心病数据,提取中医的辨证相关因素和病人的用药数据。实验结果表明,本文提出的模型不仅验证了已有的辨证与用药规律,而且能够挖掘出多因素组合的辨证和多种药物之间的配伍规律。(3)分析了已有的基于变精度粗集的决策树分类算法,提出了两种新的属性选择方法。第一种属性选择方法,不仅考虑当前结点的属性值个数,而且考虑下层结点的变精度明确区大小,即同时考虑树的两层结点。通过新的属性选择方法,不仅克服了ID3算法中的不足,而且具有变精度粗糙集的优点。第二种属性选择方法,使用了一种综合考虑分类精度和分支数量的属性选择新标准——加权粗糙度和复杂度。同时在结点停止分裂条件中引入了支持度和置信度,提高决策树的泛化能力。为降低噪声数据和缺失值的影响,算法使用了基于匹配度的类别预测方法。通过对比实验,验证了本文提出的方法的有效性。(4)提出了3种新的多值属性和多类标数据的决策树算法。算法中,首先提出了新的孩子结点的类标集相似度计算公式来评定属性分类效果,综合考虑两个多类标集合中元素同时出现或不出现的情况,使类标集相似度的计算更加全面和准确。其次,提出了新的结点停止分裂条件,使得结点的类标集标注更加准确。最后,给出了相应的预测方法。通过与已有的算法进行比较,验证了本文提出的算法的分类效果。文中提出的分类算法更适合处理多值属性和多类标数据的分类问题。
周琦[10](2012)在《改进的C4.5决策树算法研究及在高考成绩预测分析中的应用》文中进行了进一步梳理近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,如市场分析、顾客保有、科学探索等。其中数据分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,其中决策树分类方法以其算法理论清晰、易被理解以及容易转换成分类规则等优点被广泛研究与应用。本文以“学生成绩管理系统”为研究背景,目的是研究如何将数据挖掘技术与现有的数据库系统相结合,从大量的数据中提取出隐藏在数据之中的有用信息,为学校的管理者提供综合分析。通过对数据挖掘基本原理、基本算法的研究开发了基于决策树算法的高考成绩预测分析模块。以改进的决策树C4.5算法为基础,根据学生成绩数据库中的信息建立一个决策树成绩预测模型,对学生高考成绩进行综合分析预测。通过对几种典型的决策树算法进行分析比较,本文提出了改进的C4.5算法。该算法是将高等数学中的一些原理与C4.5算法相结合,对算法中的信息熵及分裂信息量公式进行化简,以达到提高算法运行效率的目的。最后利用程序分别实现改进前后的C4.5算法并进行对比实验,经过理论分析和实验结果表明,改进后的C4.5算法提高了决策树的构建速度,减少了算法的运行时间。本文提出的改进算法改善了原始决策树C4.5算法的性能,表现出了良好的分类效果。
二、一种两阶段决策树建树方法及其应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种两阶段决策树建树方法及其应用(论文提纲范文)
(1)融合先验知识的深度学习方法及其应用(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究领域 |
1.1.2 研究背景 |
1.1.3 研究意义 |
1.2 研究现状分析 |
1.3 主要内容和结构体系 |
第2章 预备知识 |
2.1 深度神经网络 |
2.1.1 前馈神经网络 |
2.1.2 卷积神经网络 |
2.1.3 图卷积网络 |
2.1.4 目标检测网络 |
2.2 多示例学习 |
2.3 评价指标 |
第3章 预定义卷积滤波器网络及其应用 |
3.1 引言 |
3.2 预定义卷积滤波器网络 |
3.2.1 预定义卷积滤波器 |
3.2.2 网络框架 |
3.2.3 逼近精度分析 |
3.2.4 数值实验结果与分析 |
3.2.5 小结 |
3.3 基于预定义卷积滤波器的骨折检测 |
3.3.1 方法概述 |
3.3.2 实验结果与分析 |
3.3.3 小结 |
3.4 本章小结 |
第4章 结合结构知识的多示例学习方法及其应用 |
4.1 引言 |
4.2 基于图卷积网络的多示例学习方法 |
4.2.1 基于图结构的多示例学习的数学定义 |
4.2.2 图注意力机制 |
4.2.3 算法流程 |
4.2.4 理论分析 |
4.2.5 数值实验结果与分析 |
4.2.6 小结 |
4.3 基于多示例学习方法的黑色素瘤检测及病变区域分割 |
4.3.1 方法概述 |
4.3.2 实验结果与分析 |
4.3.3 小结 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 未来工作展望 |
参考文献 |
附录A 补充材料 |
A.1 Gabor和Schmid滤波器的补充说明 |
A.2 关于PCFNet实验的一些补充说明 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(2)共享单车需求量预测及调度优化算法的研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 主要内容与组织结构 |
1.3.1 本文主要内容 |
1.3.2 本文的组织结构 |
第二章 理论基础与相关技术 |
2.1 K-means算法 |
2.2 随机森林算法 |
2.3 蚁群算法 |
2.4 本章小结 |
第三章 共享单车需求预测技术研究 |
3.1 问题分析 |
3.2 共享单车需求特征分析 |
3.2.1 时间特征分析 |
3.2.2 天气特征分析 |
3.2.3 温度特征分析 |
3.2.4 风速特征分析 |
3.3 基于随机森林的IMRF-DF需求预测算法 |
3.3.1 RF算法原理 |
3.3.2 Pearson相关系数 |
3.3.3 基于随机森林的IMRF-DF算法 |
3.4 实验验证与分析 |
3.4.1 实验数据集 |
3.4.2 评价标准 |
3.4.3 实验结果与分析 |
3.5 本章小结 |
第四章 共享单车调度算法优化研究 |
4.1 问题分析 |
4.1.1 调度问题描述 |
4.1.2 调度主要内容 |
4.2 共享单车调度区域划分 |
4.2.1 算法思想 |
4.2.2 算法描述 |
4.3 共享单车调度优化模型 |
4.3.1 模型描述 |
4.3.2 模型假设 |
4.3.3 模型构建 |
4.4 基于蚁群算法的IMACO-SP共享单车调度算法 |
4.4.1 ACO算法原理 |
4.4.2 ACO算法中关键步骤 |
4.4.3 基于蚁群算法的IMACO-SP算法 |
4.5 实验验证与分析 |
4.5.1 实验数据集 |
4.5.2 区域划分 |
4.5.3 实验结果与分析 |
4.6 本章小结 |
第五章 共享单车智能调度原型系统的设计与实现 |
5.1 系统需求分析与功能模块设计 |
5.1.1 系统需求分析 |
5.1.2 功能模块设计 |
5.2 系统架构设计 |
5.3 系统核心功能实现 |
5.3.1 用户管理 |
5.3.2 数据上传 |
5.3.3 调度需求预测 |
5.3.4 调度路径计划 |
5.4 运行界面显示 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 全文工作总结 |
6.2 展望 |
参考文献 |
致谢 |
附录 :攻读硕士学位期间取得的成果 |
(3)基于随机森林的工业螺丝数据分析研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 自动化螺丝锁附研究现状 |
1.2.2 数据挖掘研究现状 |
1.3 研究内容 |
1.4 组织结构 |
第2章 基本理论知识 |
2.1 随机森林算法 |
2.1.1 集成学习 |
2.1.2 Bagging和Boosting算法 |
2.1.3 决策树 |
2.1.4 随机森林 |
2.2 K-Means算法 |
2.2.1 K-Means算法简介 |
2.2.2 K-Means算法流程介绍 |
2.2.3 K-Means算法性能分析 |
2.3 概率主成分分析 |
2.4 皮尔森相关系数 |
2.5 距离相关系数 |
2.6 本章小结 |
第3章 螺丝数据特性分析 |
3.1 螺丝数据概述 |
3.1.1 自动螺丝机构造简介 |
3.1.2 螺丝数据采集 |
3.1.3 螺丝类别简析 |
3.2 螺丝锁附结果判别难点分析 |
3.3 螺丝数据数字特征提取 |
3.4 本章小结 |
第4章 基于随机森林的不平衡数据特征选择方法 |
4.1 不平衡数据特征选择研究现状 |
4.2 基于随机森林的不平衡数据特征选择方法 |
4.2.1 算法描述 |
4.2.2 有效性分析 |
4.3 实验结果及分析 |
4.3.1 评价指标 |
4.3.2 实验数据简介 |
4.3.3 结果分析 |
4.4 本章小结 |
第5章 基于概率PCA和随机森林的多步螺丝锁附判别方法 |
5.1 基于概率PCA和随机森林的多步螺丝锁附判别方法 |
5.1.1 相似组划分方法研究 |
5.1.2 相似组划分评价指标 |
5.2 实验及结果分析 |
5.3 本章小结 |
第6章 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
攻读学位期间取得的科研成果 |
致谢 |
(4)不确定性条件下的哈尔滨市水资源优化配置研究(论文提纲范文)
摘要 |
Abstract |
1 引言 |
1.1 研究背景 |
1.1.1 水资源现状 |
1.1.2 水资源系统不确定性分析 |
1.2 水资源优化配置国内外研究现状 |
1.2.1 水资源优化配置国内研究现状 |
1.2.2 水资源优化配置国外研究现状 |
1.3 研究目的及意义 |
1.3.1 研究目的 |
1.3.2 研究意义 |
1.4 研究内容 |
1.5 研究创新点 |
1.6 技术路线图 |
2 基本理论和方法 |
2.1 水资源优化配置理论 |
2.1.1 区间线性规划 |
2.1.2 两阶段随机规划 |
2.2 水资源优化配置数学模型 |
2.2.1 区间两阶段随机规划模型 |
2.2.2 区间多阶段随机规划模型 |
2.3 本章小结 |
3 区间两阶段-部分信息模型建立及应用 |
3.1 研究区概况 |
3.1.1 自然地理 |
3.1.2 气象条件 |
3.1.3 哈尔滨市水资源状况 |
3.2 区间两阶段-部分信息模型建立及求解 |
3.2.1 区间两阶段-部分信息模型建立 |
3.2.2 区间两阶段-部分信息模型求解 |
3.2.3 哈尔滨市水资源配置相关参数 |
3.3 模型结果与分析 |
3.4 本章小结 |
4 区间多阶段-部分信息模型建立及应用 |
4.1 区间多阶段-部分信息模型建立及求解 |
4.1.1 区间多阶段-部分信息模型建立 |
4.1.2 区间多阶段-部分信息模型求解 |
4.2 哈尔滨市水资源配置相关参数 |
4.3 模型结果与分析 |
4.4 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 展望 |
致谢 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
(5)Spark平台下并行决策树算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 前言 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文的主要贡献 |
1.4 本文的结构 |
第2章 分布式机器学习技术基础 |
2.1 数据集和属性 |
2.2 经典的决策树算法 |
2.2.1 ID3算法 |
2.2.2 C4.5算法 |
2.2.3 CART算法 |
2.3 Spark分布式平台 |
2.3.1 Spark平台运算的核心RDD |
2.3.2 RDD的依赖关系 |
2.3.3 Spark的基本运行流程 |
2.3.4 Spark平台的优势 |
2.4 本章小结 |
第3章 Spark平台下决策树算法的设计 |
3.1 数据分区 |
3.1.1 Spark数据分区 |
3.1.2 Spark决策树MLDT在计算中的数据分区 |
3.1.3 数据分区的改进 |
3.1.4 按列分区性能对比 |
3.2 数据压缩 |
3.2.1 稀疏向量 |
3.2.2 应用较为广泛的数据压缩方法 |
3.2.3 基于Spark平台游程编码方式的改进 |
3.2.4 Bitset数据压缩方法 |
3.2.5 Bitset数据压缩方法性能分析 |
3.3 连续属性的离散化 |
3.3.1 无监督离散化 |
3.3.2 监督离散化 |
3.3.3 Fayyad边界点离散化方法 |
3.3.4 Wenliang算法 |
3.3.5 边界点的离散化方法在Spark上的应用 |
3.4 SPDT算法 |
3.5 本章小结 |
第4章 Spark平台下改进决策树算法的性能分析 |
4.1 小数据集的实验验证 |
4.2 大数据集的实验验证 |
4.2.1 大规模数据集的实验验证 |
4.2.2 模型训练时间实验验证 |
4.2.3 模型分类精度验证 |
4.3 本章小结 |
第5章 总结和展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
在学期间的科研情况 |
(6)无人驾驶汽车车辆障碍物检测及换道决策研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题的研究背景与意义 |
1.2 无人驾驶中的环境感知技术 |
1.2.1 基于机器视觉的目标检测技术 |
1.2.2 基于激光雷达的目标检测技术 |
1.2.3 基于激光雷达与视觉信息融合的目标检测技术 |
1.3 车辆换道决策判断技术 |
1.4 本文研究的主要内容 |
1.4.1 本文研究内容 |
1.4.2 各章节主要内容及创新点 |
第二章 基于改进聚类算法的车辆障碍物检测研究 |
2.1 引言 |
2.2 相关算法介绍 |
2.2.1 k-means聚类算法 |
2.2.2 k-means++聚类算法 |
2.2.3 DBSCAN聚类 |
2.2.4 DPC聚类 |
2.3 基于相互近邻的自适应合并密度峰值聚类算法(MNN-ADPC) |
2.3.1 局部密度与最近邻距离计算方法 |
2.3.2 类簇中心选择与待分配点划分策略 |
2.3.3 自适应类簇融合策略 |
2.3.4 MNN-ADPC算法主要流程 |
2.3.5 MNN-ADPC算法时间复杂度分析 |
2.4 激光雷达点云预处理方法 |
2.4.1 激光雷达介绍 |
2.4.2 基于激光雷达的三维感知系统构建 |
2.4.3 障碍栅格地图构建 |
2.4.4 车辆障碍物检测 |
2.5 实验分析 |
2.5.1 数据集介绍 |
2.5.2 算法性能对比 |
2.5.3 实验验证与结果分析 |
2.6 本章小结 |
第三章 基于深度神经网络的车辆障碍物检测研究 |
3.1 引言 |
3.2 基于深度神经网络的车辆目标检测算法 |
3.2.1 相关算法介绍 |
3.2.2 PointRCNN目标检测网络 |
3.3 基于深度神经网络的改进3D车辆目标检测网络 |
3.3.1 自适应特征权重学习 |
3.3.2 角度损失函数优化 |
3.4 算法验证与实验分析 |
3.4.1 数据集介绍 |
3.4.2 算法实验验证 |
3.5 本章小结 |
第四章 基于梯度提升决策树的车辆换道决策研究 |
4.1 引言 |
4.2 车辆换道决策研究方法 |
4.2.1 交通状态数据获取 |
4.2.2 NGSIM数据集介绍 |
4.2.3 数据预处理及数据筛选方法 |
4.2.4 换道决策变量的构建与选择 |
4.3 基于梯度提升决策树的车辆换道决策 |
4.4 实验分析 |
4.4.1 模型参数优化 |
4.4.2 实验结果与分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文研究内容总结 |
5.2 工作的不足与展望 |
参考文献 |
致谢 |
作者简历 |
攻读硕士学位期间的科研成果 |
(7)随机森林和深度神经网络的若干关键技术研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景及意义 |
1.2 研究现状概述 |
1.2.1 随机森林算法的研究概述 |
1.2.2 深度神经网络算法的研究概述 |
1.3 本文的主要工作与结构安排 |
第2章 随机森林和深度神经网络的原理简介 |
2.1 随机森林原理简介 |
2.1.1 决策树 |
2.1.2 随机森林 |
2.2 深度神经网络原理简介 |
2.2.1 深度学习与浅层学习 |
2.2.2 神经网络的训练 |
2.2.3 卷积神经网络 |
第3章 随机森林中决策树的优化 |
3.1 引言 |
3.2 Tsallis熵的背景 |
3.2.1 Tsallis熵的定义及性质 |
3.3 Tsallis熵框架 |
3.3.1 Tsallis熵分裂准则与其他准则之间的关系 |
3.3.2 统一的Tsallis准则决策树算法 |
3.3.3 实验 |
3.4 Tsallis信息准则 |
3.4.1 对称分裂准则 |
3.4.2 两阶段非贪婪建树 |
3.4.3 实验 |
3.5 本章小结 |
第4章 随机森林中特征子空间选取办法的优化 |
4.1 引言 |
4.2 基于主成分分析和分层抽样的随机森林算法 |
4.2.1 随机采样的弊端 |
4.2.2 主成分分析方法(PCA) |
4.2.3 分层抽样方法(SS) |
4.2.4 基于PCA-SS的随机森林算法(PSRF) |
4.3 实验 |
4.3.1 数据集 |
4.3.2 实验设置 |
4.3.3 分类准确度比较 |
4.3.4 参数交叉分析 |
4.4 本章小结 |
第5章 随机森林中理论一致性的研究 |
5.1 引言 |
5.2 伯努利随机森林 (BRF) |
5.2.1 数据点切分 |
5.2.2 伯努利可控的建树过程 |
5.2.3 预测 |
5.2.4 BRF算法 |
5.3 一致性的证明 |
5.3.1 预备知识 |
5.3.2 一致性定理 |
5.4 随机森林一致性的讨论 |
5.5 实验 |
5.5.1 数据集 |
5.5.2 实验设置 |
5.5.3 不同随机森林算法的比较 |
5.5.4 参数交叉检验 |
5.6 本章小结 |
第6章 深度神经网络的学习过程的理解 |
6.1 引言 |
6.2 深度表示子空间的维数 |
6.2.1 局部内在维度(Local Intrinsic Dimensionality, LID)的介绍 |
6.2.2 基于批采样的LID的估计 |
6.2.3 子空间维度与噪声标签之间的关系 |
6.2.4 深度神经网络在噪声标签上的两阶段学习过程 |
6.3 维度驱动的学习策略 |
6.4 实验 |
6.4.1 维度驱动学习(D2L)的理解 |
6.4.2 对噪声标签的鲁棒性 |
6.5 本章小结 |
第7章 深度神经网络在复杂噪声下学习的研究 |
7.1 引言 |
7.2 迭代学习的框架 |
7.2.1 迭代噪声标签检测 |
7.2.2 判别特征学习 |
7.2.3 重新加权 |
7.3 实验 |
7.3.1 CIFAR-10 数据集上的探索性实验 |
7.3.2 Imagenet数据集上的实验 |
7.3.3 真实世界噪声数据集上的实验 |
7.4 本章小结 |
第8章 总结和展望 |
8.1 研究总结 |
8.2 未来研究展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(8)决策树算法应用及并行化研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景及研究意义 |
1.2 研究现状 |
1.2.1 数据挖掘的研究现状 |
1.2.2 数据挖掘中决策树算法并行化研究现状 |
1.3 本文主要工作及论文结构 |
第二章 云计算和数据挖掘技术概述 |
2.1 数据挖掘技术概述 |
2.1.1 数据挖掘技术及知识发现特征分析 |
2.1.2 数据挖掘模式 |
2.1.3 数据挖常用算法 |
2.2 云的概念 |
2.2.1 云相关的网络技术 |
2.2.2 云的平台 |
2.3 本章小结 |
第三章 决策树算法应用和改进 |
3.1 决策树基本知识 |
3.2 决策树典型分类算法介绍 |
3.2.1 信息论相关概念 |
3.2.2 ID3算法 |
3.2.3 C4.5 算法 |
3.2.4 SLIQ算法 |
3.2.5 CART算法 |
3.3 典型分类决策树算法比较 |
3.4 基于C4.5 算法建立军事训练成绩评估模型 |
3.4.1 研究背景 |
3.4.2 系统分析 |
3.4.3 模型建立 |
3.4.4 模型评估 |
3.5 基于罗比达法则的决策树算法改进 |
3.5.1 C4.5 测试属性的选择 |
3.5.2 C4.5 算法的改进算法研究现状 |
3.5.3 C4.5 算法的改进 |
3.5.4 实验验证 |
3.5.5 实验结论 |
3.6 本章小结 |
第四章 决策树算法的并行化研究 |
4.1 随机森林算法 |
4.2 基于CART算法的随机森林模型构建 |
4.2.1 CART算法 |
4.2.2 模型构建 |
4.3 算法并行化研究 |
4.3.1 并行计算模型 |
4.3.2 MapReduce并行编程模型 |
4.4 基于随机森林的CART算法并行化设计 |
4.4.1 并行策略的选取 |
4.4.2 基于Map Reduce模型的算法设计 |
4.4.3 并行模型相关函数设计 |
4.4.4 改进算法基于MapReduce的流程设计 |
4.5 实验与分析 |
4.5.1 实验数据选择 |
4.5.2 算法参数选择 |
4.5.3 建树属性数量的设置 |
4.5.4 算法性能对比 |
4.6 本章小结 |
第五章 基于Hadoop平台的决策树算法实验与评估 |
5.1 实验平台搭建 |
5.1.1 实验环境 |
5.1.2 Hadoop平台搭建 |
5.1.3 平台状态显示 |
5.2 实验数据 |
5.3 实验评价 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 展望 |
致谢 |
参考文献 |
(9)基于关联规则与决策树的预测方法研究及其应用(论文提纲范文)
创新点摘要 |
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 关联规则挖掘及其面临的问题 |
1.1.2 决策树及其面临的问题 |
1.2 关联规则挖掘研究现状 |
1.2.1 关联规则基本问题 |
1.2.2 关联规则种类 |
1.2.3 频繁项集挖掘算法 |
1.2.4 多层、多维的关联规则挖掘算法 |
1.2.5 频繁闭项集、最大频繁项集挖掘算法 |
1.2.6 高维数据库的关联挖掘算法 |
1.2.7 基于约束的频繁项集生成算法 |
1.2.8 生成规则的兴趣度度量与相关性分析 |
1.2.9 增量式更新算法 |
1.2.10 其他关联规则挖掘算法及应用 |
1.3 决策树研究现状 |
1.3.1 决策树基础分类方法 |
1.3.2 CART分类方法 |
1.3.3 SLIQ及SPRINT算法 |
1.3.4 PUBLIC算法 |
1.3.5 Boosting及Bagging算法 |
1.3.6 基于粗糙集的决策树构建算法 |
1.3.7 基于变精度粗糙集的决策树分类算法 |
1.4 论文组织 |
第2章 关联规则生成数量的回归分析 |
2.1 研究背景及意义 |
2.2 关联规则参数分析 |
2.3 回归方程的设计 |
2.4 回归效果检验 |
2.5 实验 |
2.5.1 实验数据及复相关系数的检验 |
2.5.2 显着性检验 |
2.5.3 回归方程的预测 |
2.5.4 基于UCI数据的回归方程预测 |
2.6 效率分析 |
2.7 本章总结 |
第3章 模糊递减支持度的关联规则发现及其应用 |
3.1 冠心病数据应用背景介绍 |
3.2 支持度-置信度模型存在的问题 |
3.3 已有的相关研究 |
3.4 模糊递减支持度-置信度模型 |
3.4.1 模糊递减支持度公式 |
3.4.2 相关定义及性质 |
3.4.3 规则生成 |
3.5 3种修正模型 |
3.5.1 模糊递减支持度-置信度-兴趣度模型 |
3.5.2 模糊递减支持度-双向置信度-兴趣度模型 |
3.5.3 模糊递减支持度-重合度-兴趣度模型 |
3.6 冠心病数据的提取 |
3.7 实验 |
3.7.1 验证本章提出的模糊递减支持度-置信度模型 |
3.7.2 验证本章提出的3中改进模型 |
3.8 本章小结 |
第4章 基于变精度粗糙集的决策树分类算法 |
4.1 基于VPRS属性选择标准 |
4.1.1 变精度粗糙集模型 |
4.1.2 双层变精度明确区的属性选择标准 |
4.1.3 基于加权粗糙度和复杂度的属性选择标准 |
4.2 结点停止条件和类标预测方法 |
4.2.1 结点停止条件 |
4.2.2 类标预测方法 |
4.3 算法描述 |
4.3.1 IVPRSDT算法 |
4.3.2 IVPRSDT算法的优点 |
4.4 实验 |
4.4.1 MVPRSDT算法实验与结果分析 |
4.4.2 IVPRSDT算法实验与结果分析 |
4.5 本章小结 |
第5章 多值属性多类标数据的决策树生成算法 |
5.1 多值属性多类标数据决策树的问题描述 |
5.2 多值属性多类标数据决策树算法 |
5.2.1 已有的结点属性选择标准 |
5.2.2 结点属性选择标准改进 |
5.2.3 最佳属性的评定方法 |
5.2.4 结点停止分裂条件 |
5.3 标定记录的预测分类结果 |
5.4 决策树生成算法 |
5.5 实验 |
5.5.1 实验数据产生 |
5.5.2 实验方案 |
5.5.3 实验结果 |
5.6 本章总结 |
结束语 |
参考文献 |
攻读学位期间发表的论文 |
攻读学位期间参加的科研项目 |
致谢 |
作者简介 |
(10)改进的C4.5决策树算法研究及在高考成绩预测分析中的应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题来源 |
1.2 国内外研究现状、水平及发展趋势 |
1.3 选题的研究意义与目的 |
1.4 研究内容 |
1.5 拟采取的研究方法 |
1.6 预期成果 |
1.7 论文框架 |
第二章 数据挖掘综述 |
2.1 数据挖掘基本技术 |
2.1.1 数据挖掘定义 |
2.1.2 数据挖掘功能 |
2.1.3 数据挖掘方法 |
2.1.4 数据挖掘过程 |
2.2 分类挖掘及其应用 |
2.2.1 分类基本概念 |
2.2.2 分类挖掘算法 |
2.2.3 本文采用的分类挖掘算法 |
2.3 决策树算法及其应用 |
2.3.1 决策树概述 |
2.3.2 决策树构造过程 |
2.3.3 决策树的评价标准 |
2.3.4 决策树的剪枝 |
2.3.5 几种常见的决策树分类算法 |
2.3.6 本文采用的决策树算法 |
2.4 本章小结 |
第三章 改进的决策树算法研究 |
3.1 C4.5算法及其应用 |
3.1.1 ID3算法 |
3.1.2 C4.5算法 |
3.1.3 C4.5算法的应用实例 |
3.2 改进的C4.5算法 |
3.2.1 公式的改进 |
3.2.2 改进的C4.5算法的应用 |
3.3 改进前后的C4.5算法对比分析 |
3.3.1 决策树比较 |
3.3.2 时间复杂度比较 |
3.4 本章小结 |
第四章 改进的C4.5算法在高考成绩预测分析中的应用 |
4.1 开发背景 |
4.2 系统结构设计图 |
4.3 系统开发环境 |
4.4 解决方案 |
4.4.1 挖掘目标和对象 |
4.4.2 数据的收集 |
4.4.3 数据预处理 |
4.4.4 用改进的C4.5算法构建决策树 |
4.4.5 实验结果分析 |
4.5 在学生成绩管理系统中的实现 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
四、一种两阶段决策树建树方法及其应用(论文参考文献)
- [1]融合先验知识的深度学习方法及其应用[D]. 马阳玲. 中国科学技术大学, 2021(01)
- [2]共享单车需求量预测及调度优化算法的研究与应用[D]. 张徐. 江苏大学, 2020(02)
- [3]基于随机森林的工业螺丝数据分析研究[D]. 邓煜. 太原理工大学, 2020(07)
- [4]不确定性条件下的哈尔滨市水资源优化配置研究[D]. 王中君. 东北农业大学, 2020(07)
- [5]Spark平台下并行决策树算法研究[D]. 陆旭. 西华师范大学, 2020(12)
- [6]无人驾驶汽车车辆障碍物检测及换道决策研究[D]. 徐兵. 浙江大学, 2020(02)
- [7]随机森林和深度神经网络的若干关键技术研究[D]. 王奕森. 清华大学, 2018(04)
- [8]决策树算法应用及并行化研究[D]. 李伟. 电子科技大学, 2014(03)
- [9]基于关联规则与决策树的预测方法研究及其应用[D]. 伊卫国. 大连海事大学, 2012(03)
- [10]改进的C4.5决策树算法研究及在高考成绩预测分析中的应用[D]. 周琦. 广西大学, 2012(02)