全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211465709.X (22)申请日 2022.11.22 (71)申请人 成都新希望金融信息有限公司 地址 610000 四川省成 都市高新区仁和街 39号6栋2层3号 (72)发明人 王小东 吕文勇 周智杰 朱羽  廖浩  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 唐正瑜 (51)Int.Cl. G06T 3/00(2006.01) G06V 20/40(2022.01) G06V 40/16(2022.01) H04N 5/265(2006.01)G06F 40/289(2020.01) (54)发明名称 一种虚拟客服生成方法、 装置、 电子设备及 存储介质 (57)摘要 本申请提供一种虚拟客服生成方法、 装置、 电子设备及存储介质。 该方法包括: 提取模板人 脸的面部特征并对模板人脸中的至少一个面部 特征进行替换, 形成虚拟客服视频人脸; 使用人 脸迁移算法将虚拟客服视频人脸迁移至姿态表 情视频, 形成无声客服视频, 其中, 姿态表情视频 为预先录制的朗读视频; 基于原始文本, 形成视 频音频; 以及根据视频音 频对无声客服视频中人 脸的嘴型进行校对, 形成校对后的无声客服视 频, 并基于校对后的无声客服视频和视频音 频进 行语音融合, 形成虚拟客服视频。 通过上述方法 生成的虚拟客服, 用户可以与生成的虚拟客户进 行交互, 消除了用户认为无人监管而进行造假的 想法, 进而降低用户欺诈攻击的风险。 权利要求书2页 说明书10页 附图4页 CN 115511704 A 2022.12.23 CN 115511704 A 1.一种虚拟客 服生成方法, 其特 征在于, 所述方法包括: 提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换, 形成虚拟客 服视频人脸; 使用人脸迁移算法将所述虚拟客服视频人脸迁移至姿态表情视频, 形成无声客服视 频, 其中, 所述姿态 表情视频为预 先录制的 朗读视频; 基于原始文本, 形成视频音频; 以及 根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对, 形成校对后的无声客 服视频, 并基于所述校对后的无声客服视频和所述视频音频进行语音融合, 形成虚拟客服 视频。 2.根据权利要求1所述方法, 其特征在于, 所述提取模板人脸的面部特征并对模板人脸 中的至少一个面部特 征进行替换, 形成虚拟客 服视频人脸之前, 还 包括: 对多个人脸图像进行特征提取并存储, 形成待匹配面部特征, 所述待匹配面部特征用 于对所述模板人脸的面部特 征进行替换。 3.根据权利要求2所述方法, 其特征在于, 所述提取模板人脸的面部特征并对模板人脸 中的至少一个面部特 征进行替换, 形成虚拟客 服视频人脸, 包括: 提取模板人脸的面部特征并随机选择所述面部特征中的至少一个面部特征为待替换 面部特征; 将每一个所述待替换面部特征与 所述待匹配面部特征进行匹配, 得到目标匹配面部特 征; 以及 使用所述目标匹配面部特征对对应的所述待替换面部特征进行替换, 形成所述虚拟客 服视频人脸。 4.根据权利要求1所述方法, 其特 征在于, 所述人脸迁移算法基于Gan模型训练得到 。 5.根据权利要求1所述方法, 其特 征在于, 所述基于原 始文本, 形成视频音频, 包括: 获取所述原始文本; 对所述原始文本进行断句, 分词, 归一化处理以及对所述原始文本中的阿拉伯数据、 符 号和外文替换为中文, 得到处 理后的文本; 对所述处理后的文本转换为带音调的拼音并进行韵律分析处理, 获得带韵律的拼音文 本; 将所述带韵律的拼音 文本输入声学模型进行转换处 理, 得到声学 特征; 以及 将所述声学 特征输入声学模型进行转 化处理, 得到所述视频音频。 6.根据权利要求1 ‑5任一项所述方法, 其特征在于, 所述根据 所述视频音频对所述无声 客服视频中人脸的嘴型进行 校对, 形成校对后的无声客 服视频, 包括: 对所述视频音频进行分帧处 理, 并使用傅里叶变换将每一帧音频转换为频谱图; 使用卷积神经网络对所述频谱图进行 特征提取, 得到多维特 征图; 基于所述多维特 征图使用所述嘴型生成模型, 生成目标嘴型序列; 基于所述目标嘴型序列更新所述视频音频对应的无声客服视频中的嘴型, 生成校对后 的无声客 服视频。 7.根据权利要求6所述方法, 其特征在于, 基于所述校对后的无声客服视频和所述视频 音频进行语音融合, 形成虚拟客 服视频, 包括:权 利 要 求 书 1/2 页 2 CN 115511704 A 2使用多媒体视频处理工具对所述校对后的无声客服视频和所述视频音频进行合成, 形 成虚拟客 服视频。 8.一种虚拟客 服生成装置, 其特 征在于, 所述装置包括: 人脸生成模块, 用于提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进 行替换, 形成虚拟客 服视频人脸; 无声视频生成模块, 用于使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表情视 频, 形成无声客 服视频; 音频生成模块, 用于基于原 始文本, 形成视频音频; 以及 虚拟客服视频生成模块, 用于根据 所述视频音频对所述无声客服视频中人脸的嘴型进 行校对, 形成校对后的无声客服视频, 并基于所述校对后的无声客服视频和所述视频音频 进行语音融合, 形成虚拟客 服视频。 9.一种电子设备, 其特征在于, 包括: 处理器和存储器, 所述存储器存储有所述处理器 可执行的机器可读指 令, 所述机器可读指令被所述处理器执行时执行如权利要求1至7任一 所述的方法。 10.一种计算机可读存储介质, 其特征在于, 该存储介质上存储有计算机程序, 该计算 机程序被处 理器运行时执 行如权利要求1至7任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115511704 A 3

.PDF文档 专利 一种虚拟客服生成方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种虚拟客服生成方法、装置、电子设备及存储介质 第 1 页 专利 一种虚拟客服生成方法、装置、电子设备及存储介质 第 2 页 专利 一种虚拟客服生成方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:30:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。