(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111385350.0
(22)申请日 2021.11.22
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 冯冲 许达 沙九
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 王松
(51)Int.Cl.
G06F 40/58(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种利用半自回归融合领域术语的低资源
机器翻译方法
(57)摘要
本发明涉及一种利用半自回归融合领域术
语的低资源机器翻译 方法, 属于自然语 言处理机
器翻译技术领域。 本发明通过融合特定领域术语
的低资源机器翻译方法, 使用外部知识引导解码
器, 结合自回归与非自回归的解码方式, 在引入
先验知识的同时不牺牲解码效率, 满足垂直领域
的翻译需求。 在半自回归的解码器中, 将待生成
的译文序列进行多组分块, 块内采用自回归方
式, 块外采用非自回归方式。 在推理阶段, 分别通
过删除历史译文中错误的词、 插入 先验知识术语
约束词、 预测合理的译文词并保留机制, 从额外
提供的约束中提取信息, 进而融合外部先验知
识。 本发明不仅能够灵活融入外部先验知识, 适
应多领域不同翻译模型, 相比自回归翻译方式大
幅度提升 了解码速率。
权利要求书2页 说明书8页 附图2页
CN 114492468 A
2022.05.13
CN 114492468 A
1.一种利用半自回归融合领域术语的低资源机器翻译方法, 其特征在于, 包括以下步
骤:
步骤1: 构建基于半自回归 模型的解码方法, 实现以半自回归方式生成序列;
步骤2: 构建融合特定领域的术语库, 分别通过删除历史译文中错误的词、 插入先验知
识术语约束词、 预测合理的译 文词并保留, 用于将外 部知识融入到译 文句子中;
步骤3: 使用基于句子级别的知识蒸馏方法, 在训练中利用自回归模型的提示, 让非自
回归模型学习自回归 模型隐变量和注意力的分布;
翻译模型采用贪婪搜索算法, 通过并行解码生成多个候选译文, 然后挑选概率最大的
译文序列, 作为 最终的译 文。
2.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法, 其特
征在于, 步骤1构建的基于半自回归模 型, 在编码器端与Transformer保持一致, 在解码器端
则通过半自回归方式进行解码;
解码器在生成译 文时, 对译 文进行分块并同步 解码:
一条译文序列S被分割为不同的块S1,S2,…,Sk, 在块内, 通过自回归解码方式, 结合源
文信息、 先验知识和已生成历史译文来预测下一个词, 每阶段解码器为不完整的块生成一
个相应的词或符号, 如式(1)所示:
其中, P(y|x)表示条件概率, x表示输入序列, y表示输出序列;
表示第i块中第t个词
或符号;
为第i块已生成历史译文; L为块的总长度, K表示块的
个数;
计算第i块Si中预测的词或符号
如式(2)所示:
其中, V表 示词汇表, <BOS>和<EOS>分别表 示起始符和结束符; P()表 示对应表达式的概
率分布; argmax表示 求使得该概率最大的参数集 合;
当
时,表示Si块开始解码, 允许插 入约束术语库;
当
时, 表示Si块未完成, 允许继续 解码;
当Si=<EOS>时, 表示Si块已完成, 停止解码;
当整个解码过程中预测的词都为<EOS>、 历史信息不变且达到最大长度时, 表示此序列
解码已完成。
3.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法, 其特
征在于, 步骤2中, 在正式引入先验知识并解码阶段, 通过句子边界y0=<s></s>进行初次迭
代, 在删除历史译文中错误的词之前, 用目标约 束填充y0序列, 目标序列通过编辑迭代进行
优化, 其中, <s>表示句子开头, < /s>表示句子结尾;
其中, 先验知识融入的方法为:
解码器的输入为源语 言词嵌入均匀映射z, z=f(x; θenc), f()表示映射函数, x表 示源语权 利 要 求 书 1/2 页
2
CN 114492468 A
2言输入序列, 以及给定的n组先验知识, 其中, zk=ε(xi),
t=1,2,...,Ty,n=P1,
P2,…,Pn; θenc表示编码器的相关参数; zk表示第k个块的映射结果; ε(xi)表示阶跃函数; t表
示当前时间步; Tx表示源语言序列长度, Ty表示目标语言序列长度; Pn表示第n对先验知识;
每对先验知识Pj由不同的词或短句wj构成,
j=1,2,…,n; 解码
器在正式解码前, 预先结合源语言信息, 从先验知识库中选取对应的目标语言, 并插入待生
成序列y0,
删除冗余词的方法为: 在正式解码时, 结合约束条件、 源文信 息、 已生成历史译文, 执行
删除操作。
4.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法, 其特
征在于, 步骤2中, 引入一个约束掩码来指示约束标记在序列中的位置, 并规定禁止删除约
束掩码所指定的约束标记; 通过随机加入约束掩码占位, 每次迭代时, 会将约束掩码的位置
重新进行计算并更新, 最终从先验知识库中选取合 适的候选文来 替换对应的约束掩码。
5.如权利要求4所述的一种利用半自回归融合领域术语的低资源机器翻译方法, 其特
征在于, 引入约束掩码 操作包括两个阶段: 约束掩码预测 和候选文预测;
约束掩码预测阶段, 在每次迭代中, 对于解码器的输入序列y, y=<s>y1,y2,…,yn</s>,
其中, <s>表示句 子开头, </s>表示句子结尾, 模型会在y中每一个可能的插槽(yi,yi+1)中,
利用一个二分类 器
来预测是否会添加约束掩码, 约束掩码记为<PLH>, 如式(3)所示:
其中,
表示约束掩码预测器对序列y中第i个词的预测结果, θ表 示模型参数,
softmax表示分类函数, hi表示第i个词的隐藏状态, hi+1表示第i+1个词的隐藏状态, concat
表示拼接函数, n 为序列y的长度;
在候选文预测阶段, 对于上述预测的每个约束掩码, 模型通过训练一个字符预测器, 从
先验知识库中选取实际字符来对该占位符进行替换, 如式(4)所示:
其中,
表示候选文预测器对序列y中存在 掩码的位置的预测结果, θ表 示模型
参数, softmax表示分类函数, hi表示第i个词的隐藏状态, yi为序列中第 i个词;
为逻辑符
号, 表示“任意的”; C为与词嵌入矩阵共享的参数。
6.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法, 其特
征在于, 步骤3中, 首先, 在原始训练语料中加入 先验知识库, 并训练一种自回归的翻译模型
作为教师模型;
然后, 对源文翻译并获得译 文y′;
最后, 用伪平行语料(x,y ′)训练非自回归的翻译模型, 其中x表示源语言的输入序列。权 利 要 求 书 2/2 页
3
CN 114492468 A
3
专利 一种利用半自回归融合领域术语的低资源机器翻译方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 18:58:52上传分享