一、基于标注图像的MPEG-4人脸运动参数获取方法(论文文献综述)
叶苑芝[1](2021)在《基于语音驱动的三维发音动作合成系统实现》文中提出人脸动画合成领域的研究越发流行,语音可视化成为当下语音研究的热点,广泛应用于各大行业中,对于语言学习者而言更有着重要的指导意义,并能有效促进信息的交流与传递。本研究基于语音可视化,致力于实现由语音驱动的三维发音动作人脸动画模拟系统,其关键点着重于发音动作参数预测及人脸图像合成,特点是能够直观逼真地展示汉语普通话发音的实时动作变化。研究主要包括以下几个方面:(1)语音数据库的构建。设计汉语普通话有效发音文本,结合三维运动捕捉设备,采集标准发音人的52个人脸面部特征点对应信息,对数据进行优化解析及各参数的预处理,形成本次实验所需的语音数据库。(2)发音动作参数的预测。由于实验室录制的中文发音动作参数数据库有限,引入了隐马尔科夫模型(HMM)以建立上下文协同发音动作预测模型,其目的在于输入任意语音片段,能够预测与之对应的发音动作参数,以获取该片段的人脸特征点图像。实验结果表明:三音素协同发音模型RMSE误差(1.3mm)明显低于单音素模型,对上下文三音素设置属性及问题集后再进行模型的聚类及参数重估,合成的最优发音轨迹能够有效地逼近真实运动轨迹。随后由发音轨迹逐帧截取面部特征点图片作为控制点以用于驱动人脸的发音动作。(3)人脸动画的合成。构建了一个人脸动画合成神经网络,用以训练并模拟与语音对应的运动特征,进而合成个性化逼真的人脸动画视频。首先设计条件生成对抗网络,以面部特征点图片作为输入,通过真实人脸图像及特征点的约束,以生成器和判别器的互弈收敛还原生成对应帧的真实面部图像,并逐帧组合为连续动画视频;并嵌入记忆增强网络进行人脸的个性化微调,最后配以对应音频实现语音间接驱动下的人脸动画合成。实验结果表明:建立的基于语音驱动的发音动作合成系统可以真实有效地模拟说话人发音时的发音动作,包括姿态和唇部的动作,有助于人们学习理解汉语普通话的发音及语意。
宋翔宇[2](2021)在《多模态数据驱动的复杂人脸动画方法研究》文中研究表明语音信息和面部表情是交流沟通过程中最重要的两个载体,当出现语音和口型动作不匹配的情况时,会给人很强烈的不真实感。因此,生成带有真实口型的人脸面部动画是计算机视觉领域的重要课题之一。传统的面部捕捉方法要求昂贵的动作捕捉设备且在后期生成动画时需要专业动画师的调整,因此,寻找一种平民化的带有真实口型动作的人脸动画生成方法可以更好地满足普通用户的需求。本文主要提出了通过单目视频相机来捕捉人脸运动参数并结合音频信息生成匹配的口型动画,最终在骨骼蒙皮模型上生成人脸面部动画,从而提高了人脸动画生成效果的真实感。本文的生成方案主要包含以下三个部分:1.获取人脸交互动画参数。本文使用单目视频相机作为采集设备,通过方向梯度直方图(HOG)特征和支持向量机(SVM)算法来构建目标检测器,用来追踪检测视频图像中的人脸区域。然后,在获得到的人脸区域上采用基于集成回归树(ERT)的特征点定位算法获取到人脸特征点的位置信息。最终,基于三维可形变人脸模型(3DMM)根据视频帧图像中的二维信息来实现三维空间中人脸模型的重建,并计算出形状参数和表情参数。2.语音匹配的口型动画生成。本文提出了基于强化学习的演员-评论家模型(Actor-Critic),第一步将音频信息进行预处理,之后结合快速傅里叶变换(FFT)实现对梅尔频率倒谱系数(MFCC)的提取并将其作为音频信息的特征参数。然后,Actor模型将提取到的声学特征参数和面部形变参数作为输入,同时对下一时刻的形变参数进行预测。最终,Critic网络通过设置奖励函数,应用时间差分算法,使得生成的口型动画更具有真实感。3.多模态数据驱动的人脸动画合成。我们根据得到的人脸刚性运动参数和表情参数提出通过骨骼蒙皮模型来实现人脸面部表情动画的生成,在骨骼蒙皮模型的基础上,通过插入辅助骨骼的方法来优化皮肤网格的形变表现,然后通过特征点匹配的方法来将人脸面部表情动画和口型动画合成,最终生成带有真实口型的人脸面部表情动画。
尤阳[3](2021)在《基于实时三维面部合成的虚拟教师教学系统》文中认为在虚拟教学中,授课教师的地位举足轻重,而虚拟教师授课主要通过直观的面部表情传递信息,因此面部合成的实效性至关重要。但传统的面部表情合成方法,存在因驱动复杂拓扑结构模型出现的局部失真、细微表情欠缺现象,因计算量较大带来的延迟现象等。为此本文基于面部高质量建模和面部表情实时驱动两部分关键技术进行了深入研究,有效提升了合成面部的真实性和实时性。在三维面部建模方面,本文在传统纹理映射的基础上针对拼接重合点较少、侧脸效果失真、衔接处拼接效果差等不足提出了基于正面及左右侧面照片的纹理合成方法。通过设定一个标准纹理模板,基于四角网格的图像变形算法、仿射变换进行分区域映射,建立出更具真实感且与表演者高相似度的面部纹理。生成模型后,针对模型与表演者面部特征点之间的匹配度低、特定器官容易出错的问题,提出了建立模型特定器官特征点局部坐标系的方法对模型的特征点数据进行优化,实现了模型与表演者面部的精确高质量匹配。在面部实时驱动方面,本文针对传统方法生成复杂面部表情时局部失真、延迟等问题,提出了基于肌群分布的径向基函数(Radial-Basis Function,RBF)插值变形人脸表情驱动算法。将面部划分成三个区域分别进行插值,根据肌肉模型选取控制点,减少非必要的面部数据,优化了面部合成效率,从而提高了表情重构的实时性。为了实现逼真的面部表情合成,使模型的皱纹等细微面部特征更加接近真实表情,提出了一种创建皱纹表的纹理合成方法,该方法可以根据目标表情,提取并合成适当的表情性皱纹,最终得到更贴合表演者的细微表情特征。为了验证本文提出算法的有效性,本文展示了12个较为复杂表情的合成效果,并完成了多种表情驱动算法下合成表情的精度和速度对比。实验结果表明,本文提出的基于正面及左右侧面照片的纹理合成算法、基于肌群分布的RBF面部表情驱动算法和细微表情合成算法生成的人脸不论是在质量上还是在时效上均满足虚拟教师系统需求,并已推广至大中小学教育、宣传片制作等领域。
冯静怡[4](2020)在《基于web的三维虚拟形象生成与控制方法研究》文中研究指明随着虚拟现实和增强现实技术(Augmented Reality,AR)的发展,新型社交媒体不断出现并快速发展。在这些社交媒体应用之中,最重要的技术之一就是为用户生成与之相似的虚拟形象。本文的目的是为用户生成专属的虚拟形象,同时能让虚拟形象模仿用户的表情动作,使虚拟形象能够成为用户在网络世界的化身。现存的虚拟形象生成技术主要分为基于三维扫描设备的方法和基于模型库匹配的方法。其中,基于三维扫描设备的方法对设备要求高,不便于使用和推广;而基于模型库匹配的方法生成的结果个体差异小,容易造成审美疲劳。为了解决现有方法的缺点,本文提出了一种基于Delaunay三角剖分及图形仿射变换的面部纹理制作方法,结合Web端人脸重建生成的3D模型,可以在不依赖任何三维设备和既定面部元素库的情况下为用户生成具有个人特征的专属虚拟形象。现存的虚拟形象表情控制主要通过模型的骨骼-肌肉绑定实现,该方法需要提前设定模型,并由设计师进行模型绑定,造成了模型的固定性和大量人工消耗。为了解决上述问题,本文提出了一种基于面部区域划分的人脸表情动画方法,结合头部姿态估计技术和人脸姿态归一化方法,无需人工参与就可以对生成的虚拟形象模型进行表情控制,让虚拟形象能够实时模拟用户表情动作。实验结果表明,本文提出的方法能根据用户的二维面部信息生成个性化的专属三维虚拟形象,结合对虚拟形象的控制,能真实可靠地模拟用户面部动作。为基于Web的虚拟形象相关研究提供了一种可行性参考。
杨心如[5](2020)在《基于单目相机的人脸实时交互动画技术研究》文中研究说明人脸作为人类信息与情感表达的重要载体,是新一代人机交互方式的重要组成成分。人脸动画在工业界有着广泛的应用,但传统人脸动画制作方法费时、费力、高成本,因此,找到一个简单、方便、低成本的人脸动画制作方法具有重大意义。本文针对人脸动画技术方面的问题,围绕基于单目视频相机的人脸实时交互动画技术进行深入的研究与探讨。我们的研究工作涵盖了人脸动画技术的三个核心部分:1.面部表情捕获与跟踪。面部表情的跟踪与捕获主要包含两个部分:人脸检测算法和人脸特征点定位算法。本文提出使用方向梯度直方图(HOG)和支持向量机(SVM)的人脸检测方法。首先运用单目视频相机作为人脸视频的采集设备,然后提取人脸图像的HOG特征,SVM通过学习HOG特征来选取支持向量构建最优分类面。根据训练得到的SVM分类器检测出视频帧中的人脸区域。在获取人脸区域后,我们通过基于级联回归树的人脸特征点定位算法定位人脸关键部位(眉毛、嘴角、鼻尖等)的特征点,进行视频中人脸表情的捕获与跟踪。2.生成人脸交互动画参数。为了能够生成驱动数字人脸模型动画的三维参数,本文提出一种基于SFM-3DMM的三维人脸可形变模型的方法估计来自二维视频帧中人脸的深度信息。应用SFM-3DMM算法对跟踪得到的二维人脸特征点进行三维拟合,得到姿势自适应型三维人脸,并输出人脸刚性运动参数和人脸表情参数。3.基于单目相机的人脸交互动画合成方案。在已有人脸交互动画合成方案的基础上,本文提出了一种基于骨骼蒙皮模型的人脸交互动画合成方案。骨骼蒙皮模型是一种仿生模型,具有真实感强,易于驱动的优点。通过人脸运动捕获中提取的人脸动画参数,对角色头部稀疏的骨骼节点进行程序化的控制,以生成逼真的面部动画序列。
张永强[6](2018)在《基于稀疏表示和级联回归的面部动作捕捉技术研究》文中研究指明面部动作捕捉旨在通过计算机技术捕捉人脸的关键点运动(如嘴角、眼角、眉头等)、三维姿态与表情变化,进而生成三维人脸模型并驱动三维虚拟角色表演。近年来,随着计算机视觉与图形技术的发展,面部动作捕捉技术成为当前动画学科研究的一个重点,并广泛应用于智能人机交互、虚拟现实与增强现实等领域。基于单目视频的面部捕捉是面部捕捉领域非常有潜力的发展方向,对于大众用户也是一个更切合实际的解决方案。本课题继续深入研究基于单目视频的智能化面部动作捕捉技术,主要研究其中涉及的机器学习与计算机视觉方面的回归优化问题。基于单目视频的面部动作捕捉研究中的关键问题是人脸跟踪、人脸关键点定位、以及三维姿态与表情估计。围绕上述问题,针对当前方法在复杂场景下存在的问题与不足,本文深入研究抗遮挡的人脸跟踪、人脸关键点定位中的多姿态回归问题、部分遮挡与大幅光照污染下的鲁棒回归问题以及三维姿态、表情等多参数优化问题。本文的主要研究内容如下:1)为了克服人脸跟踪过程中目标遮挡、目标消失等严重影响跟踪效果的情况,本文在经典稀疏表示跟踪算法的基础上,提出加入拓展模板(固定模板和近况模板)的方法来提高跟踪精度和抗遮挡能力。在多个基准数据集的实验测试表明,加入拓展模板的稀疏表示跟踪算法,在保持原有算法优势的前提下,显着地提升了跟踪算法应对遮挡问题的能力,并增强了遮挡后重新捕获目标的能力。2)针对当前关键点定位方法无法有效处理大幅姿态变化以及在户外等无控制条件下容易失效的问题,本研究基于非线性优化理论,提出了符号相关监督下降回归方法。与以往方法在多姿态数据集上训练一个全局模型不同,本文在分析特征和形状与目标姿态之间内在相关性的基础上,将其投影到公共子空间中进行姿态分离,从而在姿态一致的样本子集上训练不同模型。在多姿态数据集上的实验表明,本文方法可以准确分离不同姿态的样本。与当前其他方法的对比实验表明,本文方法在保持同等的预测速度的情况下,能提高多姿态场景下的定位精度。3)在多姿态关键点定位中,部分遮挡与大幅光照问题等造成的人脸污染会导致明显的定位偏差,针对此类问题,本文提出了一种新的基于低秩-稀疏表示的鲁棒回归方法。与现有多数鲁棒回归方法不同,本文方法可同时进行污染人脸恢复和回归优化。相比当前适用于单姿态或单表情场景下的低秩约束鲁棒回归方法,本文中的低秩-稀疏表示约束更加符合多姿态、多表情场景下的污染人脸去噪和建模。本文基于线性化轮换方向法(LADM),给出了模型的迭代优化算法,并分析了算法的收敛性与计算复杂度。合成数据上的实验验证了本文方法的收敛性与多子空间回归能力。在多个公共数据集上的对比实验表明,在多姿态、多表情复杂场景下,本文方法提高了污染人脸回归精度,并降低了人脸恢复误差。对于多姿态下部分遮挡与大幅光照造成的污染人脸,关键点定位精度得到提高。4)针对现有三维姿态与表情回归方法不能很好处理大幅表情变化与平面外姿态变化的问题,本文提出了一种基于三维双线性模型的多参数监督坐标下降法。与直接学习全部参数与图像特征之间映射的方法不同,本文通过坐标下降的方式逐步分离学习每种参数映射。由于姿态、表情和人物系数等不同参数对二维关键点位移的贡献不同,各参数分离学习减轻了整体学习带来的交叉效应。在多个网络视频上的对比实验表明,本文方法的三维人脸重建精度可信度更高,二维关键点定位误差更小,相比于现有回归方法,可更好地估计平面外姿态变化和表情变化。最后本文将各部分研究内容集成为一个单目面部动作捕捉系统,实现了在多姿态与表情、部分遮挡以及光照变化等复杂条件下的稳定三维面部动作捕捉。
王晓晖[7](2017)在《基于信息化教学的学习状态分析》文中研究表明面部表情是我们日常生活中交流沟通的重要组成部分,通过表情的变化可以感知人的状态、感受、情绪。随着计算机视觉、图像处理、机器学习、人工智能等领域的蓬勃发展以及硬件计算性能的不断提升,计算机理解图像、视频的能力越来越强,从海量的图像、视频数据中获取有价值的信息从而改善生产和生活成为可能。同时,随着教育事业日益受到社会各界重视及在线教育的发展,缺乏一种有效评估学生听课状态及课程质量的系统问题日益凸显。在此背景下,本文提出基于课堂视频数据,利用深度学习及计算机视觉技术自动对学生听课时面部图像进行分析,识别听课时的学习状态。本质上来讲,通过学生听课时的面部图像分析其学习状态也属于一种表情识别,只是这三种状态在日常生活中并不如原型表情常见,表情强度及面部肌肉运动也和原型表情存在较大差异。本文进行的主要工作有:依托实验室课题项目,本文收集了较大规模的各年龄段各科目课堂听课视频。为了高效、严谨地组织、标注这些课堂视频,本文设计并实现了一个完整的半自动学习状态标注工具。在听课视频数据及标注工具的基础上,本文组织进行了多人数据标注建立面部学习状态识别数据库。在为本文提供数据样本的同时,也为此领域的继续深入研究奠定了基础。结合传统原型表情识别领域的研究经验及近来深度学习领域的研究进展,本文提出了一种具有场景针对性的基于深度卷积神经网络的课堂学习状态识别技术,从而做到了对识别目标较为准确稳定的识别。针对无法获得充足训练数据的情况,在算法结构中引入人脸标准化流程,并针对性设计网络结构,从而大大降低了对训练数据规模的要求。针对课堂走神等特殊学习状态,灵活运用计算机视觉技术做到了准确识别。
潘晓凤[8](2015)在《基于Xface的藏语TTVS的实现》文中进行了进一步梳理随着人机语音交互的迅速发展,可视语音合成(Text-to-Visual Speech,TTVS)技术一度成为研究的热点。但是面向少数民族语言的TTVS的研究还处于萌芽时期,因此对藏语TTVS的研究具有开创性。本文提出了一种基于Xface平台实现藏语TTVS的方法,首先建立一个可视的三维人脸头像,然后通过分析藏语的声韵母的特点建立藏语的口形库,利用FAP(Facial Animation Parameter,FAP)参数流驱动藏语口形的动作,并与一个藏语统计参数语音合成系统相结合,实现藏语的TTVS。论文的主要工作和创新如下:1.实现了一个基于Xface的人脸动画系统。利用MPEG-4(Moving Pictures Experts Group-4)标准中的人脸面部定义参数(Facial Definition Parameter,FDP)以及能够驱动人脸动画的人脸动画参数共同建立人脸模型,在此基础上利用Xface开发平台实现人脸动画系统。2.建立了一个面向藏语可视语音的藏语口形库。以声韵母为基元来定义和描述藏语发音的口形。通过对比汉语和藏语在声韵母上的差别,利用汉语和藏语语音在声韵母上的发音相似性实现对藏语声韵母的发音口形的FDP和FAP的描述和定义。对于与汉语相同的藏语声韵母,其口形用国际音标的发音口形来描述定义;藏语中与汉语声韵母不同的,则按照藏语自身的发音特点来对其进行定义。在此基础上,利用藏语声韵母的发音口形的FDP和FAP,通过Xface实现了对藏语口形库的建立。3.实现了基于Xface的藏语TTVS。将人脸动画系统中各个声韵母的口形动作的起止时间分别与藏语语音合成系统中各个声韵母发音的起止时间相对应,使发音与口形相匹配,实现藏语的TTVS。对系统的可视化效果及有无人脸动画系统参与情况下,语音合成系统合成的语音的可懂度进行了主观评测。实验结果表明,系统的可视化效果的平均MOS得分为3.6分;无人脸动画系统参与时,合成语音的平均MOS的分为4.1分,有人脸动画系统参与时,合成语音的平均MOS的分为4.6分。
陈续旭[9](2014)在《基于Candide-3模型的人脸图像表情生成研究》文中指出面部表情传递的非语言类信息在人们的日常生和交流中占据着重要的地位。随着计算机技术的日益成熟和便携式设备的广泛流行,二维动画仍然占据着数字娱乐的绝大部分市场份额,这使二维动画技术与三维动画技术一样拥有广阔的市场前景。因此本文基于面向数字娱乐的人脸图像表情生成的课题背景,立足于前人研究成果,着力于人脸图像表情生成的研究,实现了利用Candide-3模型进行动画角色的快速更换和变形,本文的主要研究内容有:(1)在Candide-3模型中选择定位关键点,并对人脸匹配相似比方法进行改进,提高模型与真实人脸图像匹配的精准度。(2)根据人脸运动规律,在Candide-3模型上分级划分人脸运动区域,对不同区域有针对性的进行二次分层细化,实现真实自然的人脸表情动画。(3)在WPF平台上进行表情生成系统的开发,验证理论方法的可行性。本文的创新点有:(1)提出了基于双坐标轴的模型——图像匹配算法。对Candide-3模型进行了改进,增加了两个瞳孔点增加定位的准确性。同时将MPEG-4中FAPU的距离思想与已有的相似比匹配算法相结合,将相似比方法由单坐标轴扩展为双坐标轴,增加了匹配精度,用Candide-3模型实现了动画角色的快速转换和匹配。(2)划分人脸运动的高频区和低频区,对Candide-3的模型网格进行了相应的分层。通过定量分析与定性分析,根据FACS中的AU编码描述,总结归纳人脸运动规律,在此基础上对Candide-3模型进行运动区域划分和分区域的二次细化,增加了网格细化的针对性,保证了人脸变形的效果。在上述理论研究的基础上,以WPF为开发平台,设计实现了一个单图像表情生成系统。实验表明,本文所述方法快速简便,运行效率较高,保证了人脸变形的效果。
王俊培[10](2011)在《真实感三维人脸表情动画生成》文中指出在人们的日常生活中,人脸表情是一种重要的交流方式,能够直观明了地表达主人公的喜怒哀乐等思想感情。近年来,随着计算机软硬件技术的迅速发展,将多媒体技术带入了一个全盛的发展时期,同时由于人们对人机交互界面的可视化要求越来越高,使得人脸建模与动画技术在人机交互中发挥着越来越重要的作用。三维人脸表情动画技术的应用领域非常广泛,如游戏娱乐、电影制作、人机交互、广告制作等等,具有重要的应用价值和理论意义。建立具有高度真实感、实时运行、尽可能自动化、自适应的人脸建模与表情动画系统是研究人脸建模与表情动画的最终目标。通过近年来研究人员的不懈努力,三维人脸表情动画技术已经取得了巨大的进步和发展。为了更好地生成具有真实感的三维人脸表情动画,本文研究了基于MPEG-4的三维人脸表情动画技术,主要研究内容如下:(1)基于信息统计的人脸动画参数确定方法本文在总结和研究三维人脸表情动画生成技术的基础上,通过对北京工业大学三维扫描人脸数据库中人脸数据的分析,提出了一种基于三维人脸数据信息统计获取人脸表情动画参数的方法,并通过实验统计数据库中带表情的三维人脸数据信息,得到了人脸分别在六种基本表情状态下的参数值。(2)人脸区域划分和基于特征点的网格变形方法通过对人脸运动情况的分析和讨论,提出了人脸区域划分方法,提高了人脸各个动作的独立性。深入分析了现有的动画变形方法,提出了一种基于特征点的自适应权值的插值方法,能够根据网格的尺度调整插值函数中的权值,避免了边界面片奇异拉伸,实现了网格的平滑变形。并通过实验对数据库中的人脸模型进行六种基本表情的生成,实现了真实感人脸表情的生成,并验证了本文提出的网格变形方法对模型的通用性。(3)表情变化过程中的动态特征模拟通过对人脸表情变化规律的分析,提出了一种基于特征点的人脸动态特征模拟方法,将人脸整体的动态特征分解为各个特征点的动态特征,降低了问题的复杂度。通过模拟真实人脸表情变化过程中的特征点运动规律,刻画了表情变化过程中的动态特征,生成了具有真实感的人脸表情动画序列。
二、基于标注图像的MPEG-4人脸运动参数获取方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于标注图像的MPEG-4人脸运动参数获取方法(论文提纲范文)
(1)基于语音驱动的三维发音动作合成系统实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 发音动作与协同发音 |
1.2.2 可视化发音 |
1.2.3 语音驱动人脸动画 |
1.3 研究目的与意义 |
1.4 主要研究内容 |
1.5 研究思路与本文结构安排 |
1.6 本章小结 |
第2章 动捕系统及数据采集 |
2.1 三维运动捕捉技术的简介 |
2.2 汉语普通话语料设计 |
2.3 实验环境搭建 |
2.3.1 硬件设备连接 |
2.3.2 采集数据的准备工作 |
2.3.3 数据采集 |
2.4 数据处理 |
2.4.1 数据提取与优化 |
2.4.2 三维坐标点提取 |
2.4.3 音频标注 |
2.4.4 语音特征参数提取 |
2.5 本章小结 |
第3章 基于HMM模型的三维发音动作预测 |
3.1 隐马尔科夫模型 |
3.1.1 HMM简介 |
3.1.2 经典问题及算法 |
3.2 实验过程 |
3.2.1 训练数据 |
3.2.2 HMM发音动作预测方法 |
3.2.3 HMM发音动作参数预测模型的构建与实现 |
3.2.4 模型误差分析 |
3.3 提取面部特征点图像 |
3.4 本章小结 |
第4章 人脸动画合成与发音动作个性化微调 |
4.1 条件生成—对抗网络人脸动画合成 |
4.1.1 条件生成—对抗网络设计 |
4.1.2 生成器网络实现 |
4.1.3 判别器网络实现 |
4.2 记忆网络发音动作个性化微调 |
4.2.1 网络结构及作用 |
4.2.2 模型特征与效果增强 |
4.3 实验结果与分析 |
4.3.1 实验环境 |
4.3.2 实验评价方法 |
4.3.3 实验结果 |
4.4 本章小结 |
第5章 工作总结与展望 |
5.1 论文总结 |
5.2 工作展望 |
参考文献 |
附录 |
致谢 |
(2)多模态数据驱动的复杂人脸动画方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外发展现状 |
1.2.1 人脸动画模型 |
1.2.2 语音驱动的口型动画 |
1.3 本文的主要贡献与创新 |
1.4 本论文的主要内容及章节安排 |
第二章 多模态数据驱动的人脸表情动画生成方案 |
2.1 表演驱动的人脸动画生成 |
2.2 语音驱动的口型动画生成 |
2.3 章节小结 |
第三章 人脸面部特征提取 |
3.1 HOG特征 |
3.2 支持向量机SVM |
3.2.1 逻辑回归 |
3.2.2 SVM分类 |
3.2.3 SVM分类器训练数据集 |
3.2.4 人脸检测器效果 |
3.3 人脸特征点定位 |
3.3.1 回归树的划分 |
3.3.2 梯度增强 |
3.3.3 基于ERT的回归器 |
3.3.4 特征点定位效果 |
3.4 本章小结 |
第四章 人脸控制参数提取 |
4.1 构建三维人脸模型 |
4.2 三维人脸重建 |
4.2.1 形状参数计算 |
4.2.2 表情参数计算 |
4.3 本章小结 |
第五章 音频特征提取 |
5.1 音频预处理 |
5.2 快速傅里叶变化 |
5.3 梅尔频率倒谱系数 |
5.4 本章小结 |
第六章 实验结果展示 |
6.1 表演驱动的人脸表情动画生成效果 |
6.1.1 骨骼蒙皮模型细节介绍 |
6.1.2 控制参数的提取与设定 |
6.1.3 人脸表情动画生成效果 |
6.2 语音驱动的口型动画生成效果 |
6.2.1 训练数据集 |
6.2.2 口型动画生成效果 |
6.3 人脸表情动画合成效果 |
6.4 本章小结 |
第七章 全文总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
(3)基于实时三维面部合成的虚拟教师教学系统(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 选题背景及意义 |
1.2 国内外研究现状 |
1.2.1 面部建模方法 |
1.2.2 面部表情合成技术 |
1.3 论文主要内容 |
第二章 深度彩色相机标定和面部特征点坐标提取 |
2.1 Kinect硬件平台介绍 |
2.1.1 Kinect传感器内部结构和外形介绍 |
2.1.2 Kinect工作原理 |
2.2 Kinect相机的校准 |
2.2.1 校准实验准备 |
2.2.2 内参数校准 |
2.2.3 外参数和相对位置校准 |
2.2.4 校准结果 |
2.3 面部识别和特征点坐标提取 |
2.3.1 MPEG-4 面部参数标准 |
2.3.2 CANDIDE-3 三维面部网格模型 |
2.3.3 面部特征点坐标提取 |
2.4 本章小结 |
第三章 基于特征点调整和纹理映射的三维面部建模 |
3.1 传统面部纹理合成方法 |
3.2 基于正面及左右侧面照片的纹理合成方法 |
3.2.1 纹理合成算法 |
3.2.2 基于四角网格的图像变形算法 |
3.2.3 模型重建 |
3.3 三维面部模型特征点优化 |
3.3.1 面部特征点分析 |
3.3.2 面部特征点坐标系的建立与转换 |
3.4 本章小结 |
第四章 具有真实性实时性的面部表情合成 |
4.1 基于拉普拉斯的面部表情驱动方法 |
4.1.1 面部表情捕捉 |
4.1.2 基于拉普拉斯变形的面部表情转移 |
4.1.3 表情面部模型的姿态迁移 |
4.2 基于RBF函数的面部表情驱动方法 |
4.2.1 RBF函数介绍 |
4.2.2 高斯核函数介绍 |
4.2.3 面部网格模型驱动 |
4.3 基于肌群分布的RBF面部表情驱动算法 |
4.4 细微表情特征的建立 |
4.4.1 皱纹表的建立 |
4.4.2 具有皱纹的表情合成 |
4.5 本章小结 |
第五章 系统实现及实验结果分析 |
5.1 系统组成 |
5.1.1 系统的软件硬件平台 |
5.1.2 系统流程 |
5.2 实验结果与分析 |
5.2.1 选取基本表情 |
5.2.2 面部特征点检测 |
5.2.3 面部表情模拟 |
5.3 虚拟教师教学系统应用 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
发表论文和参加科研情况 |
致谢 |
(4)基于web的三维虚拟形象生成与控制方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 论文主要研究内容 |
1.4 论文组织结构 |
第二章 虚拟形象相关技术 |
2.1 人脸三维重建技术 |
2.2 面部特征点识别技术 |
2.3 头部姿态估计技术 |
2.4 面部区域划分 |
2.4.1 三角剖分概述 |
2.4.2 Delaunay三角剖分 |
2.4.3 Delaunay三角剖分生成算法 |
2.5 人脸表情动画技术 |
2.6 本章小结 |
第三章 虚拟形象生成方案 |
3.1 虚拟形象生成设计 |
3.2 基于浏览器的面部三维重建 |
3.2.1 面部三维重建方法 |
3.2.2 基于浏览器的面部三维重建方法 |
3.2.3 实验结果 |
3.3 基于浏览器的面部特征点识别 |
3.3.1 面部特征点识别方法 |
3.3.2 实验结果 |
3.4 面部纹理再造 |
3.4.1 算法思路 |
3.4.2 图像形变技术 |
3.4.3 面部纹理生成方案 |
3.4.4 实验结果 |
3.5 本章小结 |
第四章 虚拟形象控制方案 |
4.1 虚拟形象控制概述 |
4.1.1 虚拟形象在浏览器端的渲染 |
4.1.2 用户信息的实时采集 |
4.2 虚拟形象的位置控制 |
4.2.1 头部姿态估计方法 |
4.2.3 实验结果 |
4.3 虚拟形象的表情控制 |
4.3.1 脸部姿态归一化 |
4.3.2 基于面部区域划分的表情动画方法 |
4.3.3 实验结果 |
4.4 基于浏览器的相关优化 |
4.4.1 配合使用Web Worker |
4.4.2 帧间插值处理 |
4.4.3 实验结果 |
4.5 本章小结 |
第五章 虚拟形象的生成与追踪系统 |
5.1 系统的概要设计 |
5.1.1 系统设计目标 |
5.1.2 系统总体设计 |
5.1.3 数据表设计 |
5.1.4 系统开发环境 |
5.2 系统的详细设计与实现 |
5.2.1 人脸三维重建模块 |
5.2.2 面部特征点识别模块 |
5.2.3 虚拟形象生成模块 |
5.2.4 虚拟形象位置控制模块 |
5.2.5 虚拟形象表情控制模块 |
5.3 系统功能测试 |
5.3.1 虚拟形象的生成测试 |
5.3.2 虚拟形象的控制测试 |
5.4 系统性能测试 |
5.4.1 系统的准确性分析 |
5.4.2 系统的实时性分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 未来进一步工作展望 |
附录1 |
参考文献 |
致谢 |
攻读硕士学位期间发表学术论文情况 |
(5)基于单目相机的人脸实时交互动画技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外发展现状 |
1.2.1 人脸动画模型 |
1.2.2 面部表情捕捉算法 |
1.3 本文的主要贡献与创新 |
1.4 本论文的主要内容及章节安排 |
第二章 基于单目相机的人脸交互动画合成方案 |
2.1 人脸交互动画合成方案综述 |
2.2 基于骨骼蒙皮模型的人脸交互动画方案 |
2.2.1 面部解剖模型 |
2.2.2 人脸肌肉模型 |
2.2.3 骨骼蒙皮模型 |
2.2.4 人脸骨骼蒙皮模型与人脸肌肉模型的比较 |
2.2.5 人脸骨骼蒙皮模型实现细节 |
2.3 章节小结 |
第三章 基于HOG和 SVM的人脸检测算法 |
3.1 算法概述 |
3.2 HOG特征 |
3.3 支持向量机SVM |
3.3.1 Logistic回归与线性分类器 |
3.3.2 SVM分类器 |
3.3.3 特征分类器训练 |
3.4 人脸检测结果与分析 |
3.5 本章小结 |
第四章 基于级联回归树的人脸特征点定位算法 |
4.1 算法概述 |
4.2 级联回归器 |
4.3 级联中每个回归器的训练 |
4.4 基于树的回归器 |
4.4.1 形状不变分割试验 |
4.4.2 选择分割结点 |
4.4.3 特征选取 |
4.5 实现细节 |
4.5.1 缺失值的处理 |
4.5.2 实验参数 |
4.6 实现结果及分析 |
4.7 本章小结 |
第五章 人脸交互动画参数生成 |
5.1 算法流程 |
5.2 SFM-3DMM |
5.3 二维图像到三维模型的配准 |
5.3.1 人脸姿势估计 |
5.3.2 人脸形状拟合 |
5.3.3 线性表情拟合 |
5.4 本章小结 |
第六章 原型系统实现 |
6.1 系统流程 |
6.2 动画参数生成 |
6.3 数据传输 |
6.4 表情合成 |
6.5 系统分析讨论 |
6.6 本章小结 |
第七章 全文总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
(6)基于稀疏表示和级联回归的面部动作捕捉技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 国内外在该方向的研究现状及分析 |
1.2.1 国内外研究现状 |
1.2.2 国内外文献综述的简析 |
1.3 研究内容以及贡献 |
1.3.1 现有单目捕捉技术面临的问题 |
1.3.2 研究方案以及贡献 |
第2章 基于拓展模板的人脸跟踪 |
2.1 引言 |
2.2 基于拓展模板的L1 范数跟踪方法 |
2.2.1 L1-tracker模型 |
2.2.2 模板更新 |
2.2.3 遮挡检测 |
2.2.4 改进的L1-tracker算法 |
2.3 实验 |
2.3.1 实验结果对比分析 |
2.3.2 图像对比分析 |
2.4 本章小结 |
第3章 基于符号相关级联回归的人脸关键点定位 |
3.1 引言 |
3.2 基于符号相关的级联回归方法 |
3.2.1 级联回归方法分析 |
3.2.2 下降方向存在条件 |
3.2.3 符号相关投影样本分割 |
3.2.4 自适应多尺度形状引导特征 |
3.3 模型训练与预测算法 |
3.4 实验评估 |
3.4.1 符号相关分割对比验证 |
3.4.2 人脸关键点定位对比 |
3.4.3 运行时间分析 |
3.5 本章小结 |
第4章 基于鲁棒回归的抗遮挡人脸关键点定位 |
4.1 引言 |
4.2 基于低秩-稀疏表示的鲁棒回归方法 |
4.2.1 子空间恢复 |
4.2.2 回归优化问题 |
4.2.3 基于低秩-稀疏表示的回归 |
4.2.4 收敛性与复杂度分析 |
4.3 实验评估 |
4.3.1合成数据实验 |
4.3.2 CMU PIE数据集上的姿态估计实验 |
4.3.3 YaleB数据集上的污染人脸重建 |
4.4 LRS-RR在人脸关键点定位上的应用 |
4.4.1300 W数据集上的关键点定位 |
4.4.2 污染人脸的关键点定位 |
4.5 本章小结 |
第5章 基于多参级联回归的人脸姿态与表情估计 |
5.1 引言 |
5.2 基于监督坐标下降的回归方法 |
5.2.1 双线性模型与投影偏移模型 |
5.2.2 多参数监督坐标下降法 |
5.2.3 双线性模型增量式学习 |
5.3 SCDM在三维姿态与表情估计上的应用 |
5.3.1 训练数据准备 |
5.3.2 SCDM模型训练 |
5.3.3 SCDM模型测试 |
5.4 实验评估 |
5.5 本章小结 |
第6章 单目面部动作捕捉系统集成 |
6.1 引言 |
6.2 基于稀疏关键点的全局三维模型重建 |
6.2.1 人脸跟踪 |
6.2.2 二维人脸关键点定位 |
6.2.3 初始三维参数估计 |
6.2.4 基于监督坐标下降回归的三维参数优化 |
6.2.5 平均纹理估计 |
6.3 基于稠密光流的三维模型优化 |
6.3.1 人物系数与相机参数的联合优化 |
6.3.2 三维稠密光流 |
6.3.3 光流修正 |
6.3.4 三维参数与纹理更新 |
6.4 实验 |
6.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(7)基于信息化教学的学习状态分析(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景和研究意义 |
1.2 课题研究现状 |
1.2.1 人脸特征点及面部运动单元 |
1.2.2 人脸表情数据库 |
1.2.3 人脸表情识别算法 |
1.3 本文研究内容 |
1.4 本文章节安排 |
第二章 卷积神经网络基本原理 |
2.1 深度神经网络 |
2.2 卷积神经网络结构 |
2.2.1 卷积层 |
2.2.2 池化层 |
2.2.3 激活函数 |
2.2.4 全连接层 |
2.2.5 代价函数 |
2.3 卷积神经网络优化理论 |
2.3.1 后向传播算法 |
2.3.2 梯度下降算法 |
2.3.3 参数更新方式 |
2.4 正则化方法 |
2.4.1 正则化项 |
2.4.2 Dropout |
2.5 经典网络结构 |
第三章 课堂学习状态数据库 |
3.1 课堂视频 |
3.2 学习状态标注工具 |
3.3 学习状态数据库样本 |
第四章 算法模型结构设计 |
4.1 人脸预处理 |
4.2 卷积神经网络结构设计 |
第五章 算法实验测试 |
5.1 原型表情识别测试实验 |
5.2 学习状态识别实验 |
5.2.1 特殊学习状态检测 |
5.2.2 三种学习状态分类 |
第六章 结论 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
攻读学位期间参与的项目 |
(8)基于Xface的藏语TTVS的实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 语音合成技术 |
1.2.1 TTS的简介 |
1.2.2 TTS系统的基本原理 |
1.2.3 语音合成技术的国内外现状 |
1.2.4 藏语语音合成的现状 |
1.3 TTVS技术 |
1.3.1 TTVS技术介绍 |
1.3.2 语音的视觉表征 |
1.3.3 TTVS技术现状 |
1.4 主要工作 |
1.5 研究意义 |
1.6 论文的结构 |
第2章 MPEG-4 的介绍和参数功能 |
2.1 MPEG-4 的介绍 |
2.2 TTVS涉及的MPEG-4 参数 |
2.2.1 人脸定义参数 |
2.2.2 人脸动画参数 |
2.2.3 人脸动画参数单元 |
2.3 本章小结 |
第3章 人脸动画系统的建立 |
3.1 三维人脸模型的建立 |
3.1.1 三维人脸数据的获取 |
3.1.2 三维人脸模型的建立 |
3.2 藏语口形的定义 |
3.2.1 藏语概况 |
3.2.2 藏语声韵母特点 |
3.2.3 藏语基本口形的定义 |
3.2.4 FAP参数的获取 |
3.2.5 人脸动画的定义 |
3.3 MPEG-4 人脸动画原理 |
3.3.1 人脸动画定义表 |
3.3.2 人脸动画原理 |
3.4 口形库的建立 |
3.5 本章小结 |
第4章 藏语语音合成系统的建立 |
4.1 基于HMM参数语音合成的方法 |
4.1.1 HMM简介 |
4.1.2 基于HMM的语音合成原理 |
4.2 藏语语料设计和建立 |
4.2.1 文本语料的设计 |
4.2.2 语料录音 |
4.3 藏语语料切分与标注 |
4.3.1 藏语语料声韵母切分 |
4.3.2 藏语标注规则 |
4.3.3 藏语标注流程 |
4.4 基于HMM的参数语音合成方法的特点 |
4.4.1 系统优点 |
4.4.2 系统缺点 |
4.5 本章小结 |
第5章 藏语TTVS的实现结果与评测 |
5.1 藏语TTVS的系统框架图 |
5.1.1 藏语语音音位时长的提取 |
5.1.2 人脸动画关键帧的定义 |
5.2 实验结果与评测 |
5.2.1 人脸口形对语音的影响的评测 |
5.2.2 系统可视化的评测 |
5.3 本章小结 |
第6章 总结与展望 |
参考文献 |
攻读学位期间所发表的论文与主要成果 |
致谢 |
(9)基于Candide-3模型的人脸图像表情生成研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景意义及应用领域 |
1.1.1 研究背景意义 |
1.1.2 研究应用领域 |
1.2 国内外研究现状 |
1.2.1 人脸匹配与三维造型技术 |
1.2.2 表情合成技术 |
1.2.3 国内研究现状 |
1.3 研究内容与创新点 |
1.4 本文组织结构 |
第2章 相关理论方法 |
2.1 MPEG-4 |
2.1.1 人脸动画参数单元:FAPU |
2.1.2 人脸定义参数:FDPs |
2.1.3 人脸动画参数:FAPs |
2.2 面部动作编码系统:FACS |
2.2.1 面部区域专业术语 |
2.2.2 眼部区域主要运动单元 |
2.2.3 嘴部区域主要运动单元 |
2.2.4 基本表情与 AU 组合对照关系 |
2.3 WPF 程序设计 |
2.4 本章小结 |
第3章 参数化人脸模型 Candide-3 |
3.1 Candide 网格模型 |
3.1.1 Candide-3 简介 |
3.1.2 Candide-3 与 FACS |
3.2 Candide-3 模型的匹配 |
3.2.1 模型的改进 |
3.2.2 定位关键点的选取 |
3.2.3 Candide-3 模型的特定化匹配 |
3.3 本章小结 |
第4章 Candide-3 模型的分层细化与表情生成 |
4.1 基于 AU 的人脸运动区域划分 |
4.1.1 单个 AU 动作区域举例 |
4.1.2 基于表情的 AU 组合动作区域 |
4.2 Candide-3 模型细化 |
4.2.1 人脸下颚边界轮廓细化 |
4.2.2 Candide-3 的模型二次分层细化 |
4.3 基于特征点变换映射的表情合成 |
4.4 本章小结 |
第5章 单图像表情生成系统 |
5.1 系统需求分析 |
5.2 系统功能分析 |
5.3 系统详细设计 |
5.4 系统实现 |
5.4.1 原始数据输入模块的实现 |
5.4.2 人脸定位匹配模块的实现 |
5.4.3 表情生成模块的实现 |
5.5 实验结果 |
5.6 本章小结 |
结论 |
参考文献 |
附录 A FACS 中的 AU 举例 |
附录 B Candide-3 模型特征点编号 |
附录 C 攻读硕士学位期间参与的科研项目 |
附录 D 攻读硕士学位期间取得的学术成果 |
致谢 |
(10)真实感三维人脸表情动画生成(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 引言 |
1.2 研究背景及意义 |
1.3 国内外研究现状 |
1.3.1 参数化模型 |
1.3.2 肌肉模型 |
1.3.3 近年来出现的新方法 |
1.4 本文的主要研究工作 |
1.5 论文组织结构 |
第2章 基于信息统计的人脸动画参数确定方法 |
2.1 引言 |
2.2 MPEG-4 人脸动画标准 |
2.3 北京工业大学三维人脸数据库及其数据处理 |
2.3.1 BJUT-3D数据库 |
2.3.2 基于均匀网格重采样和网格简化相结合的三维人脸对齐算法 |
2.4 基于信息统计的人脸表情动画参数确定方法 |
2.4.1 方法的提出 |
2.4.2 算法流程 |
2.4.3 可行性分析 |
2.5 实验结果 |
2.6 本章小结 |
第3章 人脸网格变形 |
3.1 引言 |
3.2 人脸动画定义表 |
3.3 三维变形方法 |
3.4 人脸网格变形 |
3.5 实验结果及分析 |
3.6 本章小结 |
第4章 人脸在时间轴上的动态特征模拟 |
4.1 引言 |
4.2 人脸表情变化特征 |
4.3 基于特征点的人脸动态特征模拟 |
4.4 实验结果及分析 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间所发表的学术论文 |
致谢 |
四、基于标注图像的MPEG-4人脸运动参数获取方法(论文参考文献)
- [1]基于语音驱动的三维发音动作合成系统实现[D]. 叶苑芝. 西北民族大学, 2021(08)
- [2]多模态数据驱动的复杂人脸动画方法研究[D]. 宋翔宇. 电子科技大学, 2021(01)
- [3]基于实时三维面部合成的虚拟教师教学系统[D]. 尤阳. 天津工业大学, 2021(01)
- [4]基于web的三维虚拟形象生成与控制方法研究[D]. 冯静怡. 北京邮电大学, 2020(05)
- [5]基于单目相机的人脸实时交互动画技术研究[D]. 杨心如. 电子科技大学, 2020(07)
- [6]基于稀疏表示和级联回归的面部动作捕捉技术研究[D]. 张永强. 哈尔滨工业大学, 2018(01)
- [7]基于信息化教学的学习状态分析[D]. 王晓晖. 上海交通大学, 2017(08)
- [8]基于Xface的藏语TTVS的实现[D]. 潘晓凤. 西北师范大学, 2015(01)
- [9]基于Candide-3模型的人脸图像表情生成研究[D]. 陈续旭. 山东财经大学, 2014(08)
- [10]真实感三维人脸表情动画生成[D]. 王俊培. 北京工业大学, 2011(10)