专利一种基于改进Swin Transformer的杂志、书刊广告嵌入方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211017879.1 (22)申请日 2022.08.24 (71)申请人晋城市大锐金马工程设计咨询有限公司地址 048000 山西省晋城市开发区新市东街南城区农行住宅区5幢二单元302 (72)发明人李宁　李佳钥　李风山　 (74)专利代理机构北京博识智信专利代理事务所(普通合伙) 16067 专利代理师魏文密 (51)Int.Cl. G06T 11/00(2006.01) G06T 5/50(2006.01) G06N 3/08(2006.01) G06Q 30/02(2012.01) (54)发明名称一种基于改进Swin Tran sformer的杂志、书刊广告嵌入方法 (57)摘要本发明公开了一种基于改进 SwinTransformer的文本广告嵌入方法，包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层；所述图像数据编码层包括多头自注意力层和前馈网络层；本发明属于图像处理技术领域，具体是指一种基于改进 SwinTransformer的文本广告嵌入方法；可以有效解决将杂志广告与杂志文本进行融合，有效提升纸张的利用率；本发明提供一种自动化的杂志广告嵌入处理方式，节省了人工劳动力；本发明使用改进的SwinTransformer，可方便实现并行计算和分布式计算，加快了数据处理速度；本发明可方便的使用Pytorch或Tensorflow进行搭建；不存在训练阶段，可直接进行迭代更新的有点。权利要求书3页说明书7页附图3页 CN 115330898 A 2022.11.11 CN 115330898 A 1.一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：包括待融合杂志文本页、待融合杂志广告页、数据预处理层、图像数据编码层、注意力损失计算层、迭代更新层和融合输出层；所述图像数据编码层包括多头自注意力层和前馈网络层；所述待融合杂志文本页为杂志内除广告以外的论文或期刊文章的内容页，在初始排版时文件格式为 doc文件，进行后续的处理需将其格式转换为 JPG格式或PNG格式，对待融合杂志文本页的尺寸reshape操作，得到尺寸为H ×W×C，记为Text_Page；所述待融合杂志广告页为杂志内的广告页面，在进行后续的处理时需将其转换为JPG格式或PNG格式，所述待融合杂志广告页的尺寸reshape操作，得到尺寸为H×W×C，记为Ad_Pa ge。 2.根据权利要求1所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述数据预处理层对Text_Pa ge和Ad_Pa ge数据预处理操作，包括以下步骤： (1)分块操作， Text_Page和Ad_Page的尺寸均为H ×W×C，分块后均得到个数为N的小正方形区域，其中，小正方形区域的尺寸为： P×P×C 小正方形区域的个数N 为： (2)展平操作，对每个小正方形区域进行展平，得到1 ×(P×P×C)维的向量x； (3)合并操作，将N个小正方形展平后的向量进行合并得到矩阵X，其维度为N ×(P×P× C)，形式为： X＝[x1,x2,…,xN]T 将Text_Page经过数据预处理层得到的结果记为XText，将Ad_Page经过数据预处理层得到的结果记为XAd。 3.根据权利要求2所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述自注意力层用于比较每个小正方形区域之间相关性并得到抽象语义特征，可解决信息量过大带来的算力不足的问题，包括如下计算步骤： S1、生成每个分量的取值范围在 ‑1到1之间的特征矩阵L、 M和N，将特征矩阵L、 M和N设置为不可修改，其中特征矩阵L、 M和N的形式均为： L＝[l1,l2,…,lN]T M＝[m1,m2,…,mN]T N＝[n1,n2,…,nN]T 其中，特征矩阵L、 M和N的每个分量的维度均为(P ×P×C)×1； S2、通过特征矩阵L、 M和N 生成查寻矩阵IN、键矩阵K和值矩阵V，具体计算方式为： IN＝X×LT K＝X×MT V＝X×NT 其中： IN＝[in1,in2,…,inN]T K＝[k1,k2,…,kN]T V＝[v1,v2,…,vN]T权　利　要　求　书 1/3 页 2 CN 115330898 A 2S3、计算注意力分布，具体计算公式为：根据注意力分布对输入信息进行加权平均：上式中， Atti为的维度为 N×1。 4.根据权利要求3所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述前馈网络层，包括BP神经网络，所述BP神经网络的个数为N个，所述BP神经网络包括前馈输入层和中间隐层和前馈输出层构成，其中前馈输入层含有N个神经元，中间隐层均含有P ×C个神经元，前馈输出层含有P个神经元；前馈输入层的输入分别为Att1、 Att2、 ...、 AttN‑1和AttN，分别将Att1、 Att2、 ...、 AttN‑1和AttN输入到各自的BP神经网络中计算得到的前馈输出记为F1、 F2、 ...、 FN‑1和FN，具体计算步骤为： Fi＝max(W1Atti+b1)W2+b2 i∈(1,2, …,N) 上式中， b1表示中间隐层的偏置， b2表示前馈输出层的偏置， W1为中间隐层的内星权向量， W2为前馈输出层的内星权向量，其中的b1、 b2、 W1和W2设为不可训练， Fi为每个BP神经网络的输出，其维度均为P ×1。 5.根据权利要求4所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述注意力损失计算层用于计算Text_Page的前馈输出与Ad_Page的前馈输出之间的差异，具体计算公式如下：上式中， FText表示Text_Pa ge的前馈输出， FAd表示Ad_Pa ge的前馈输出。 6.根据权利要求5所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述迭代更新层利用梯度下降算法对Text_Page进行迭代更新得到图像Pic，由于图像数据编码层中的参数L、 M、 N、 b1、 b2、 W1和W2均为固定值，只需对Text_Page进行更新即可，具体计算公式为：上式中， XText表示Text_Page经过数据预处理层处理后得到的结果， λ为学习率，最后更新结果即为图像Pic，其形式为：上式中， Pic的维度与XText的维度相同。 7.根据权利要求6所述的一种基于改进Swin Transformer的文本广告嵌入方法，其特征在于：所述融合输出层的数据由两部分构成，包括图像Pic和将Text_Page经过数据预处理层得到的XText，所述融合输出层的计算步骤如下：权　利　要　求　书 2/3 页 3 CN 115330898 A 3

专利 一种基于改进Swin Transformer的杂志、书刊广告嵌入方法

专利一种基于改进Swin Transformer的杂志、书刊广告嵌入方法