专利一种虚拟客服生成方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211465709.X (22)申请日 2022.11.22 (71)申请人成都新希望金融信息有限公司地址 610000 四川省成都市高新区仁和街 39号6栋2层3号 (72)发明人王小东　吕文勇　周智杰　朱羽　廖浩　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师唐正瑜 (51)Int.Cl. G06T 3/00(2006.01) G06V 20/40(2022.01) G06V 40/16(2022.01) H04N 5/265(2006.01)G06F 40/289(2020.01) (54)发明名称一种虚拟客服生成方法、装置、电子设备及存储介质 (57)摘要本申请提供一种虚拟客服生成方法、装置、电子设备及存储介质。该方法包括：提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表情视频，形成无声客服视频，其中，姿态表情视频为预先录制的朗读视频；基于原始文本，形成视频音频；以及根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频。通过上述方法生成的虚拟客服，用户可以与生成的虚拟客户进行交互，消除了用户认为无人监管而进行造假的想法，进而降低用户欺诈攻击的风险。权利要求书2页说明书10页附图4页 CN 115511704 A 2022.12.23 CN 115511704 A 1.一种虚拟客服生成方法，其特征在于，所述方法包括：提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；使用人脸迁移算法将所述虚拟客服视频人脸迁移至姿态表情视频，形成无声客服视频，其中，所述姿态表情视频为预先录制的朗读视频；基于原始文本，形成视频音频；以及根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于所述校对后的无声客服视频和所述视频音频进行语音融合，形成虚拟客服视频。 2.根据权利要求1所述方法，其特征在于，所述提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸之前，还包括：对多个人脸图像进行特征提取并存储，形成待匹配面部特征，所述待匹配面部特征用于对所述模板人脸的面部特征进行替换。 3.根据权利要求2所述方法，其特征在于，所述提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸，包括：提取模板人脸的面部特征并随机选择所述面部特征中的至少一个面部特征为待替换面部特征；将每一个所述待替换面部特征与所述待匹配面部特征进行匹配，得到目标匹配面部特征；以及使用所述目标匹配面部特征对对应的所述待替换面部特征进行替换，形成所述虚拟客服视频人脸。 4.根据权利要求1所述方法，其特征在于，所述人脸迁移算法基于Gan模型训练得到。 5.根据权利要求1所述方法，其特征在于，所述基于原始文本，形成视频音频，包括：获取所述原始文本；对所述原始文本进行断句，分词，归一化处理以及对所述原始文本中的阿拉伯数据、符号和外文替换为中文，得到处理后的文本；对所述处理后的文本转换为带音调的拼音并进行韵律分析处理，获得带韵律的拼音文本；将所述带韵律的拼音文本输入声学模型进行转换处理，得到声学特征；以及将所述声学特征输入声学模型进行转化处理，得到所述视频音频。 6.根据权利要求1 ‑5任一项所述方法，其特征在于，所述根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，包括：对所述视频音频进行分帧处理，并使用傅里叶变换将每一帧音频转换为频谱图；使用卷积神经网络对所述频谱图进行特征提取，得到多维特征图；基于所述多维特征图使用所述嘴型生成模型，生成目标嘴型序列；基于所述目标嘴型序列更新所述视频音频对应的无声客服视频中的嘴型，生成校对后的无声客服视频。 7.根据权利要求6所述方法，其特征在于，基于所述校对后的无声客服视频和所述视频音频进行语音融合，形成虚拟客服视频，包括：权　利　要　求　书 1/2 页 2 CN 115511704 A 2使用多媒体视频处理工具对所述校对后的无声客服视频和所述视频音频进行合成，形成虚拟客服视频。 8.一种虚拟客服生成装置，其特征在于，所述装置包括：人脸生成模块，用于提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；无声视频生成模块，用于使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表情视频，形成无声客服视频；音频生成模块，用于基于原始文本，形成视频音频；以及虚拟客服视频生成模块，用于根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于所述校对后的无声客服视频和所述视频音频进行语音融合，形成虚拟客服视频。 9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。 10.一种计算机可读存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115511704 A 3

专利 一种虚拟客服生成方法、装置、电子设备及存储介质

专利一种虚拟客服生成方法、装置、电子设备及存储介质