(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210921888.7
(22)申请日 2022.08.02
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市钱塘新区白杨
街道2号大街1 158号
(72)发明人 僧德文 吴鑫
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 30/02(2012.01)
(54)发明名称
一种基于深度学习和梯度反转的外卖评价
文本分类方法
(57)摘要
本发明公开了一种基于深度学习和梯度反
转的外卖评价文本分类方法, 包括以下步骤: 外
卖评价数据获取和预处理; 构建并初始化卷积神
经网络; 构建并初始化Bert 类网络; 反向传播; 外
卖评价文本分类; 外卖评价文本分类效果评估。
本发明通过Transformers搭建数据预处理至端
到端的训练的完整流程, 并通过嵌入层来得到文
本最初的表征空间, 将其表征空间向量送入模
型。 在原始模型提取出的特征向量上, 本发明进
一步利用梯度翻转层来获取未收敛数据的表征
空间, 并将未收敛数据的表征空间投影到原始模
型提取的特征向量空间中, 获取到可以利用的抽
象数据, 最终结合两种特征向量进行分类达到更
好的泛化能力, 提升文本分类的准确性。
权利要求书3页 说明书7页 附图5页
CN 115221326 A
2022.10.21
CN 115221326 A
1.一种基于深度学习和梯度反转的外卖评价文本分类方法, 其特征在于, 包括以下步
骤:
S1外卖评价数据获取和预处 理:
获取外卖平台的订单评价数据D={(xi,yi)|i∈0,1, …,N‑1}, 其中N代表训练样本个
数, xi代表一个中文语料训练样本, yi代表对应单个样本的标签, 其 值为0或1;
在训练数据集中不放回的抽取训练数据xi, 并使用通用函数T okenizer和预训练的嵌入
层Embedding处理中文短句, 将单个字或词语映射成整数, 再将对应的整数映射成E维的向
量;
对每个句子进行截断和扩充处理: 当句子超出某个长度L, 就截断超出L的信息, 如果整
个句子长度小于L, 则全部填充0 至长度L;
经过了Tokenizer和Embed ding处理后, 得到:
Xi=[e0,e1,e3,…,eL‑1]
其中, Xi是经过处理的矩阵, e0代表一个1×E的向量;
S2构建外卖评价文本分类网络模型
S2‑1构建并初始化卷积神经网络
在F‑Net卷积网络中定义 三个卷积核, 在A ‑Net卷积网络中定义 一个卷积核;
A‑Net卷积网络还需要在卷积网络层上堆叠一个梯度反转层用于修改特征向量的梯度
推导方程;
在F‑Net卷积网络与A ‑Net卷积网络中, 池化层是和卷积核配对的,
使用最大池化 来获取卷积核提取的最显著的特 征用于外卖评价分类;
在卷积神经网络中, 文本卷积有两层, 第一层用嵌入层来获取文本的抽象表征Xi, 第二
层使用不同尺寸的卷积核和最大池化层来提取文本的特征向量, 预测步骤公式化形式如
下:
c=max{ci} (6)
其中, Xi是嵌入层的输出, W是卷积核权重, b是卷积核偏移量, h是卷积核大小, max则是
最大值池化操作;
由公式(4)得出来的
是一个单独的数值; 公式(4)产生的ci则是众多
组成的一个1 ×
(L‑h)特征向量; 公式(6)用于提取ci中数值最大的元 素c;
一种尺寸的卷积核会提取100种不同的c, 最后将100个不同的c合并成一个1 ×100的向
量, 成为一个尺寸卷积核下的特 征向量;
F‑Net的三种不同尺寸的卷积核会得到1 ×300的特征向量vf, 而A‑Net的一种尺寸的卷
积核会得到1 ×100的特征向量va;
通过公式(3)将va投影到对应位置的vf中得到
并将
和vf合并成一个1 ×400的向量
权 利 要 求 书 1/3 页
2
CN 115221326 A
2将
作为分类层的输入, 得 出分类层最后的1 ×2的分类向量Yf, 得出模型的预测结果;
S2‑2构建并初始化Ber t类网络
选用Bert类网络中的Ber t模型和RoBERTA模型;
选取一层Encoder的副本作为A ‑Net的子网络; ;
使用两层全连接层作为模型的分类层, 通过概率大小和预测分类来通知推荐系统此条
评价有正向情感的还是有负向情感;
F‑Net具有12层Encoder, A ‑Net的Encoder是从F ‑Net的第12个Encoder复制 而来的, 且
A‑Net的输入是 F‑Net第11层Encoder的输出;
Bert类模型的初始化需要导入预训练模型; 其中, 预训练模型是Bert类模型在无监督
外卖评价语料中学习而来的Bert 类模型的Encoder个数、 Encoder输 出维度、 Embedding输出
维度都是被固定的,
其中, Embed ding层的参数E为768, Encoder的输出的维度为768
Xi在经过Embedding和每个Encoder的输出均为如下 结构:
hi=[e0, e1, e3, ..., eL‑1]
其中, {ej|j∈0,1, …,L‑1}是1×768维度的向量, {hi|i∈1,2, …,12}是每一层Encoder
的输出, 而每一层 Encoder的输入都是上一层Encoder的输出, Xi在经过12层Encoder后生成
一个L×768的特征向量vf; 在A‑Net中生成一个 L×768的特征向量va在特征投影层中的操作
只针对vf和va的e0; 将投影后的特征
和h12的e0合并起来变成1 ×1536的特征向量
最后
将
送入分类层得到Ber t类模型的分类结果Yf;
S3反向传播
将S2‑2中得出的Yf和交叉熵计算模型的Loss, 通过Loss更新整个Embe dding层的参数、
卷积核参数、 Encoder 的参数和分类层的参数, 在更新过程中, A ‑Net所使用的学习率比F ‑
Net的学习率大; F ‑Net使用Adam优化策略, A ‑Net使用SGD优化策略;
S4外卖评价文本分类
将训练完成的模型部署在服务器上执行预测过程; 当用户写入一条评论后, 数据会发
送至外卖平台服务器, 且调用对应的预测接口后, 训练好的模 型就会读取一条文本数据; 模
型会调用内部的Tokenizer函数对中文预料做处理, 使之映射成L维的整数向量, 随后将向
量送入特征提取层卷积神经网络和Bert类网络获得该句子的特征向量, 最后将特征向量送
入分类层得到模型 预测该句子为 正向评价或负向评价的概 率。
2.如权利要求1所述的一种基于深度学习和梯度反转的外卖评价文本分类方法, 其特
征在于, 所述步骤2 ‑2中, 通过概率大小和预测分类来通知推荐系统此条评价有正向情感还
是有负向情感的方法如下;
在所述Bert模型和RoBERTA模型计算出的1 ×2的向量中, 下标0的数值代表模型预测此
条外卖评价属于正向情感的概率值, 下标1的数值表明此条外卖评价属于负向情感的概率
值; 上述两种 概率值的和为1, 当下标0的数值超过0.5时, 则认为模型预测此条外卖评价的
情感是正向情感, 反 之则为负向情感。
3.如权利要求2所述的一种基于深度学习和梯度反转的外卖评价文本分类方法, 其特
征在于, 在所述S4 步骤之后, 还 包括以下步骤:权 利 要 求 书 2/3 页
3
CN 115221326 A
3
专利 一种基于深度学习和梯度反转的外卖评价文本分类方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:27:59上传分享