(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211017879.1
(22)申请日 2022.08.24
(71)申请人 晋城市大锐金马工程设计咨询有限
公司
地址 048000 山西省晋城市开发区新市东
街南城区农行住宅区5幢二单 元302
(72)发明人 李宁 李佳钥 李风山
(74)专利代理 机构 北京博识智 信专利代理事务
所(普通合伙) 16067
专利代理师 魏文密
(51)Int.Cl.
G06T 11/00(2006.01)
G06T 5/50(2006.01)
G06N 3/08(2006.01)
G06Q 30/02(2012.01)
(54)发明名称
一种基于改进Swin Tran sformer的杂志、 书
刊广告嵌入方法
(57)摘要
本 发 明 公 开 了 一 种 基 于 改 进
SwinTransformer的文本广告嵌入方法, 包括待
融合杂志文本页、 待融合杂志广告页、 数据预处
理层、 图像数据编码层、 注意力损失计算层、 迭代
更新层和融合输出层; 所述图像数据编码层包括
多头自注 意力层和前馈网络层; 本发 明属于图像
处 理 技 术 领 域 , 具 体 是 指一 种基 于改 进
SwinTransformer的文本广告嵌入方法; 可以有
效解决将杂志广告与杂志文本进行融合, 有效提
升纸张的利用率; 本发明提供一种自动化的杂志
广告嵌入处理方式, 节省了人工劳动力; 本发明
使用改进的SwinTransformer, 可方便实现并行
计算和分布式计算, 加快了数据处理速度; 本发
明可方便的使用Pytorch或Tensorflow进行搭
建; 不存在训练阶段, 可直接进行迭代更新的有
点。
权利要求书3页 说明书7页 附图3页
CN 115330898 A
2022.11.11
CN 115330898 A
1.一种基于改进Swin Transformer的文本广告嵌入方法, 其特征在于: 包括待融合杂
志文本页、 待融合杂志广告页、 数据预 处理层、 图像数据编 码层、 注意力损失计算层、 迭代更
新层和融合输出层; 所述图像数据编码层包括多头 自注意力层和前馈网络层; 所述待融合
杂志文本页为杂志内除广告以外的论文或期刊文章的内容页, 在初始排版时文件格式为
doc文件, 进 行后续的处理需将其格式转换为 JPG格式或PNG格式, 对待融合杂志文本页的尺
寸reshape操作, 得到尺寸为H ×W×C, 记为Text_Page; 所述待 融合杂志广告页为杂志内的
广告页面, 在进行后续的处理时需将其转换为JPG格式或PNG格式, 所述待融合杂志广告页
的尺寸reshape操作, 得到尺寸 为H×W×C, 记为Ad_Pa ge。
2.根据权利要求1所述的一种基于改进Swin Transformer的文本广告嵌入方法, 其特
征在于: 所述数据预处 理层对Text_Pa ge和Ad_Pa ge数据预处 理操作, 包括以下步骤:
(1)分块操作, Text_Page和Ad_Page的尺寸均为H ×W×C, 分块后均得到个数为N的小正
方形区域, 其中, 小正方 形区域的尺寸 为:
P×P×C
小正方形区域的个数N 为:
(2)展平操作, 对每 个小正方 形区域进行展平, 得到1 ×(P×P×C)维的向量x;
(3)合并操作, 将N个小正方形展平后的向量进行合并得到矩阵X, 其维度为N ×(P×P×
C), 形式为:
X=[x1,x2,…,xN]T
将Text_Page经过数据预处理层得到的结果记为XText, 将Ad_Page经过数据预处理层得
到的结果记为XAd。
3.根据权利要求2所述的一种基于改进Swin Transformer的文本广告嵌入方法, 其特
征在于: 所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征, 可
解决信息量过 大带来的算力不足的问题, 包括如下计算 步骤:
S1、 生成每个分量的取值范围在 ‑1到1之间 的特征矩阵L、 M和N, 将特征矩阵L、 M和N设置
为不可修改, 其中特 征矩阵L、 M和N的形式均为:
L=[l1,l2,…,lN]T
M=[m1,m2,…,mN]T
N=[n1,n2,…,nN]T
其中, 特征矩阵L、 M和N的每 个分量的维度均为(P ×P×C)×1;
S2、 通过特征矩阵L、 M和N 生成查寻矩阵IN、 键矩阵K和值矩阵V, 具体 计算方式为:
IN=X×LT
K=X×MT
V=X×NT
其中:
IN=[in1,in2,…,inN]T
K=[k1,k2,…,kN]T
V=[v1,v2,…,vN]T权 利 要 求 书 1/3 页
2
CN 115330898 A
2S3、 计算注意力分布, 具体 计算公式为:
根据注意力分布对输入信息进行加权平均:
上式中, Atti为的维度为 N×1。
4.根据权利要求3所述的一种基于改进Swin Transformer的文本广告嵌入方法, 其特
征在于: 所述前馈网络层, 包括BP神经网络, 所述BP神经网络的个数为N个, 所述BP神经网络
包括前馈输入层和中间隐层和前馈输出层构成, 其中前馈输入层 含有N个神经元, 中间隐层
均含有P ×C个神经元, 前馈输出层含有P个神经元; 前馈输入层的输入分别为Att1、
Att2、 ...、 AttN‑1和AttN, 分别将Att1、 Att2、 ...、 AttN‑1和AttN输入到各自的BP神经网络中计
算得到的前馈 输出记为F1、 F2、 ...、 FN‑1和FN, 具体计算步骤为:
Fi=max(W1Atti+b1)W2+b2 i∈(1,2, …,N)
上式中, b1表示中间隐层的偏置, b2表示前馈输出层的偏置, W1为中间隐层的内星权向
量, W2为前馈输出层的内星权向量, 其中的b1、 b2、 W1和W2设为不可训练, Fi为每个BP神经网络
的输出, 其维度均为P ×1。
5.根据权利要求4所述的一种基于改进Swin Transformer的文本广告嵌入方法, 其特
征在于: 所述注 意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间
的差异, 具体 计算公式如下:
上式中, FText表示Text_Pa ge的前馈 输出, FAd表示Ad_Pa ge的前馈 输出。
6.根据权利要求5所述的一种基于改进Swin Transformer的文本广告嵌入方法, 其特
征在于: 所述迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic, 由于
图像数据编码层中的参数L、 M、 N、 b1、 b2、 W1和W2均为固定值, 只需对Text_Page进行更新即
可, 具体计算公式为:
上式中, XText表示Text_Page经过数据预处理层处理后得到的结果, λ为学习率, 最后更
新结果即为图像Pic, 其形式为:
上式中, Pic的维度与XText的维度相同。
7.根据权利要求6所述的一种基于改进Swin Transformer的文本广告嵌入方法, 其特
征在于: 所述融合输出层的数据由两部分构成, 包括图像Pic和将Text_Page经过数据预处
理层得到的XText, 所述融合输出层的计算 步骤如下:权 利 要 求 书 2/3 页
3
CN 115330898 A
3
专利 一种基于改进Swin Transformer的杂志、书刊广告嵌入方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:27:49上传分享