行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111662807.8 (22)申请日 2021.12.31 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 张丽 王月怡  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 代理人 沈波 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/284(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的文本分类方法 (57)摘要 本发明公开了一种基于深度学习的文本分 类方法, 首先进行噪音清除, 包含去除标点符号、 特殊字符。 构建字典、 依据字典构建数据集; 词嵌 入和对抗训练; 训练双向长短时记忆网络层; 训 练注意力机制层; 计算输出结果。 本发明方法将 广泛应用于图像领域的对抗训练方法应用于自 然语言处理领域, 通过在深度神经网络中添加对 抗扰动, 使得模型训练过程中网络向lo ss增大的 方向改变, 利用loss对输入求导从而更新参数, 从而降低模 型对于对抗扰动的敏感性, 有效地缓 解模型过拟合, 提高文本分类效果。 权利要求书1页 说明书4页 附图1页 CN 114357166 A 2022.04.15 CN 114357166 A 1.一种基于深度学习的文本分类方法, 其特 征在于: 该 方法的实现步骤如下: 步骤1, 文本预处 理; 对本文进行噪音清除, 包 含去除标点符号、 特殊字符; 构建字典、 依据字典构建数据集; 步骤2, 词嵌入和对抗训练; 步骤2.1使用基于预训练的词向量进行词嵌入的方式, 以词+字为上下文特征的预训练 词向量, 并通过微调的方式适应当前语境; 步骤2.2用X+δ作为新的样本输入表示, 其中X为原有的输入表示, δ为叠加在输入上的 扰动, δ 的计算方法为δ=α *Sign(g), 其中g表示损失函数Loss关于输入X的梯度; 计算在样 本X上叠加一个扰动δ, 再经过神经网络函数fθ(), 与标签y比较得到的损失, 并寻找到使该 损失最大的损失值; 步骤2.3, 针对上一 步得到的损失值, 用最小化公式对神经网络进行优化; 步骤3, 训练双向长短时记 忆网络层; 把词嵌入结果输入到双向长短时记忆神经网络层, 由前项的LSTM和后向的LSTM组合而 成, 通过Bi ‑LSTM更好地捕捉双向的语义依赖; 其中Bi ‑LSTM的第i个隐层状态hi由hi→和hi← 拼接而成, hi→和hi←分别是前向和反向的所有信息; 其中每个LSTM层都由多个cell构成, 任 一时刻t的输出Ht由Ht‑1、 Ct‑1和Xt计算得出, 其中Ct‑1为t‑1时刻的候选单元状态, Xt为时间步 长t的输入; 步骤4, 训练注意力机制层; 训练注意力机制层输入为H=[h1,h2, ..., hT], 其中T表示输入序列的长度; 注意力得分 M由tanh(H)计算得到, 注意力得分的概率分布α 由softmax(ωTM)计算得到, 其 中ωT是可训 练的参数; 训练注意力机制层的输出r由H与αT进行矩阵相乘得到; 步骤5, 计算输出 结果; 使用全连接层则将提取到的特征映射到具体类别中, 输入由两个LSTM层提取到的特征 拼接而成, 通过与权重矩阵的相乘并加上偏置项从而将特征信息映射到各个类别中, 最后 再通过Softmax函数得到概率, 计算方法为Lable[ ]=softmax(FC(A)), 其中A=[A0, A2, ..., Ai]为输入特 征, i为输入特 征的维度; C=[C0,C2, ..., Cn]为特征经过全连接层后得到的各个类别的分数, n代表了类别的个 数; 然后C0到Cn再经过了Softmax函数从而得到类别分数到各个 类别的概 率分布L。权 利 要 求 书 1/1 页 2 CN 114357166 A 2一种基于深度学习的文本分类方 法 技术领域 [0001]本发明属于自然语言处理领域。 文本分类是自然语言处理中最基础、 最关键 的技 术之一, 准确而高效的文本分类对于 自然语言处理任务具有重要意义。 对此利用深度学习 算法进行准确的文本分类。 背景技术 [0002]在人工智能发展的各个领域中, 自然语言处理是其中发展最快, 应用最广泛的领 域之一。 自然语言处理是人类语言的机器处理, 旨在教授机器如何处理和理解人类的语言, 从而在人与机器之间建立一个简单 的沟通渠道。 而文本分类是自然语言处理中最基础、 最 关键的技术之一, 是将文本进行转换然后自动分类到指定的某个或某几个类别当中的技 术。 在大数据时代背景下, 应用深度学习算法的文本分类技术可以自动高效地执行分类任 务, 大大降低了成本消耗。 文本 分类任务在情感分析、 舆论分析、 领域识别、 意图识别等多个 领域都发挥着重要作用。 [0003]文本分类任务包含了两个部分: 文本表示和文本分类。 文本表示经历了从符号表 示到隐性语义表示的过程, 包括文本预处理技术和文本表示技术。 文本预处理指在大多数 情况下, 文本中存在着一定的噪声和无用的部分, 因此, 在进行分类之前, 我们需要对文本 进行预处理, 其通常包含清除噪声、 去停用词、 中文分词、 统一英文 大小写等步骤。 文本表 示 技术是指在原始的自然语言是由人类才能识别的自然语言文字组成的情况下, 计算机无法 直接进行理解和处理, 所以需要将由自然语言构成的文本转换成计算机可以识别的数字化 表示方式。 。 其中包含基于独热编码的表示方法、 基于向量空间模型的表示方法和基于 分布 式词向量的表示方法等。 [0004]目前基于深度学习的文本分类模型首先有基于卷积神经网络的文本分类模型; 其 次是基于循环神经网络的分类模型, 它的出现主要是为了更好地处理序列信息, 以序列数 据作为输入, 在序列的演进方向上进 行递归, 且所有节点按链式连接, 可以有效的识别顺序 特征并使用先前的模式来预测下一个可能的情况, 从而有效地解决了传统神经网络无法捕 获各输入之相关性的问题, 但由于RNN反馈环路的缘 故, 梯度可以很快的发散到无穷大或迅 速变为0, 即存在梯度消失和梯度爆炸的问题, 在这两种情况下, 网络将停止学习任何有用 的东西。 其中梯度爆 炸的问题可以通过梯度裁剪解决, 而梯度消失问题则需要 更复杂的RNN 基本单元来定义; 还有使用了更复杂的RNN基本单元, 改进得到的长 短时记忆网络模型和门 控循环单元模型, 他们都通过 “门”这一机制, 从而有选择性的使信息通过, 更新或保留历史 信息, 从而一定程度上解决梯度问题; 还包括可以对重要的内容和次要的内容给予不同注 意力程度的注意力机制, 它作为深度学习 领域常用的辅助技术, 使神经网络更专注某些特 定神经元的学习。 发明内容 [0005]针对现有的大部分基于深度学习的文本分类模型没有通过在训练中引入噪音, 模说 明 书 1/4 页 3 CN 114357166 A 3

.PDF文档 专利 一种基于深度学习的文本分类方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的文本分类方法 第 1 页 专利 一种基于深度学习的文本分类方法 第 2 页 专利 一种基于深度学习的文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:18:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。