全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210778162.2 (22)申请日 2022.06.29 (71)申请人 天津大学 地址 300072 天津市津南区海河教育园区 雅观路13 5号天津大 学北洋园校区 (72)发明人 李坤 崔慧丽 温浩 黄敬  (74)专利代理 机构 北京保识知识产权代理事务 所(普通合伙) 11874 专利代理师 陈晓清 (51)Int.Cl. G06T 17/00(2006.01) G06T 7/70(2017.01) G06V 40/10(2022.01) (54)发明名称 一种宽视场大场景 下的多人三维重建方法 (57)摘要 本发明公开了一种宽视场大场景下的多人 三维重建方法, 涉及三维视觉技术领域。 本发明 所提供的一种宽视场大场景下的多人三维重建 方法, 基于端到端的大场景单图像多人三维重建 框架, 针对十亿像素级别的大场景图像, 设计以 人为中心的尺度自适应层级表示方案; 利用2D关 节点估计场景级相机内参和公共地面; 提出一种 地面引导的渐进式定位方法, 将场景级的全局3D 定位转换为局部的2D定位和3D偏移, 实现场景中 多人的精确全局空间定位, 克服单彩色相机采集 下的深度歧义问题; 利用多个分支网络得到人体 形态和位置估计所需的SMPL参数、 2D位置以及3D 偏移; 在测试阶段进行场景级微调, 进而有效提 高对新场景中人的位置预测精度。 权利要求书3页 说明书14页 附图2页 CN 115131504 A 2022.09.30 CN 115131504 A 1.一种宽 视场大场景 下的多人三维重建方法, 其特 征在于: 包括如下步骤: S1、 对大场景图像进行预处理, 通过以人为中心的自适应层级表示以获得不同分辨率 的裁剪图像, 使得人在裁剪图像中占有合适的比例, 在保持图像原有的长宽比的基础上将 裁剪图像缩放到统一大小, 用于训练网络; S2、 通过现有 的2D关节点估计方法估计大场景图像的2D关节点, 并通过人工修正的方 法对估计错误或者缺失的2D关节点进行修 正, 利用2D关节点估计地 面方程和相机内参; S3、 利用S1中预处理得到的裁剪图像训练网络, 所述网络通过骨干网络实现特征提取, 进而利用三个不同的分支网络 分别进行人体检测、 2D位置估计以及3D偏移和人体参数模型 估计; S4、 通过地面引导的渐进式定位方法, 利用S2中得到的相机内参和地面方程, 以及基于 S3中得到的2D位置获得人体粗略的3D位置, 结合S3中得到的3D偏移, 获得人体精确的3D位 置; S5、 在测试阶段对模型进行场景级微调, 对新场景图像进行多人重建, 以获得更好的2D 投影结果; S6、 通过对所有的裁剪图像的多人重建结果进行合并, 去掉重复估计的人, 得到宽视场 大场景下全局空间一 致的多人重建结果。 2.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法, 其特征在于: S1中 所述的预处 理过程主 要包括以下步骤: S101、 定义大场景图像中最小和最大的人的身高分别为hmin和hmax, 定义裁剪区域的上 界和下界分别为s和e, 使用正方形滑动窗口对大场景图像进行裁剪, 在y方向上第i个滑动 窗口的长为ci, 为使裁剪图像中人的高度为裁剪图像高度的一半, c1=2×hmin, 在y方向上最 后一个滑动窗口, 即第n个滑动窗口, 其长有cn=c1×qn‑1且 其中q为比例系数; S1中所述以人为中心的自适应层级表示如下: 为保证每个人都可以完整的出现在裁剪 图像中, 在y方向上相邻的两个滑动 窗口之间 增加一个重 叠滑动窗口, 其长度为相邻滑动窗口长度之和的一半; S102、 保持不同分辨率裁剪图像原有的长宽比, 通过双三次插值法将其统一到(512, 512), 不足部分用0填充。 3.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法, 其特征在于: S2中 所述的地 面方程以及相机参数的估计主 要包括以下步骤: S201、 通过RMPE方法估计裁剪图像的2D关节点, 对估计错误或者缺失的2D关节点进行 人工修正, 将得到的结果进行合并得到大场景图像的2D关节点信息, 根据先验信息对姿势 进行过滤, 只保留站立姿势; S202、 使用小孔相机模型, 其焦距为f(f=fx=fy), 主点为图像的中心点, 地面方程为 NTPG+D=0, 其中 为地面法线, 且||N||2=1, D为常数项, 反应地面的位置, 为地面上的点;权 利 要 求 书 1/3 页 2 CN 115131504 A 2S203、 定义左 右脚踝点的中点为 其在图像上的投影点为xb=(ub,vb), 左右肩 膀的中心点为 其在图像上的投影点为xt=(ut,vt), 假设Xb是地面上的点, 人站在 地面上且有固定的高度h, 经 过Xb和Xt的直线与地 面法线平行; S204、 根据小孔成像原理可得 其中 是xb的齐次坐标, K为相机内参矩 阵, Zb为Xb的深度; 因为Xb为地面上的点, 满足NTXb+D=0, 可 得: 左右肩膀的中点的投影点 可用如下 方程计算: 其中Zt为Xt的深度; S205、 通过基于优化的方法求 解相机参数和地 面方程, 第i个人的损失函数 具体如下: 其中L余 弦表示余弦距离, λ角 度, λ模 长分别是相应损失项的权 重; S206、 将得到的地面沿着法线方向平移0.1米获得真实的地面, 而不是脚踝所在的地 面。 4.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法, 其特征在于: S3的 具体实现过程如下: S301、 通过骨干网络对输入的图片进行特征提取, 进而将得到的特征输入三个不同的 分支网络, 每 个分支网络都由两个ResNet块和批量归一 化组成; S302、 第一个分支网络得到人体中心特征图, 利用结合身体尺度的高斯核表示特征图 中人的中心位置的可能性; S303、 第二个分支网络得到2D位置特征图, 估计左右脚踝点的2D坐标以及2D偏移, 左右 脚踝点的中点与2D偏移的和为所需的2D位置; S304、 第三个分支网络得到SMPL和偏移特征图, 估计SMPL的姿势和形状参数以及3D偏 移; S305、 根据人体中心特征 图得到的位置, 从2D位置特征图以及SMPL和偏移特征图中提 取相应的参数, 获得估计人的位置以及姿态所需要的2D位置, SMPL 参数以及3D偏移; S306、 首先训练人体中心特征图和2D位置特征图, 使得后续学习的人体网格有合适的 初始位置, 迭代 20代后训练整个网络, 整个网络迭代70代。 5.根据权利要求1所述的一种宽视场大场景下的多人三维重建方法, 其特征在于: S4中 所述的地 面引导的渐进式定位方法主 要包括以下步骤: S401、 将人的躯干中心在地面上的投影点定义为落脚点 落脚 点在大场景图像上以及在裁剪图像上 的投影分别为 和 p局部即为根据2D权 利 要 求 书 2/3 页 3 CN 115131504 A 3

.PDF文档 专利 一种宽视场大场景下的多人三维重建方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种宽视场大场景下的多人三维重建方法 第 1 页 专利 一种宽视场大场景下的多人三维重建方法 第 2 页 专利 一种宽视场大场景下的多人三维重建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 05:36:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。