专利一种利用半自回归融合领域术语的低资源机器翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111385350.0 (22)申请日 2021.11.22 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人冯冲　许达　沙九　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 专利代理师王松 (51)Int.Cl. G06F 40/58(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 40/30(2020.01) (54)发明名称一种利用半自回归融合领域术语的低资源机器翻译方法 (57)摘要本发明涉及一种利用半自回归融合领域术语的低资源机器翻译方法，属于自然语言处理机器翻译技术领域。本发明通过融合特定领域术语的低资源机器翻译方法，使用外部知识引导解码器，结合自回归与非自回归的解码方式，在引入先验知识的同时不牺牲解码效率，满足垂直领域的翻译需求。在半自回归的解码器中，将待生成的译文序列进行多组分块，块内采用自回归方式，块外采用非自回归方式。在推理阶段，分别通过删除历史译文中错误的词、插入先验知识术语约束词、预测合理的译文词并保留机制，从额外提供的约束中提取信息，进而融合外部先验知识。本发明不仅能够灵活融入外部先验知识，适应多领域不同翻译模型，相比自回归翻译方式大幅度提升了解码速率。权利要求书2页说明书8页附图2页 CN 114492468 A 2022.05.13 CN 114492468 A 1.一种利用半自回归融合领域术语的低资源机器翻译方法，其特征在于，包括以下步骤：步骤1：构建基于半自回归模型的解码方法，实现以半自回归方式生成序列；步骤2：构建融合特定领域的术语库，分别通过删除历史译文中错误的词、插入先验知识术语约束词、预测合理的译文词并保留，用于将外部知识融入到译文句子中；步骤3：使用基于句子级别的知识蒸馏方法，在训练中利用自回归模型的提示，让非自回归模型学习自回归模型隐变量和注意力的分布；翻译模型采用贪婪搜索算法，通过并行解码生成多个候选译文，然后挑选概率最大的译文序列，作为最终的译文。 2.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法，其特征在于，步骤1构建的基于半自回归模型，在编码器端与Transformer保持一致，在解码器端则通过半自回归方式进行解码；解码器在生成译文时，对译文进行分块并同步解码：一条译文序列S被分割为不同的块S1,S2,…,Sk，在块内，通过自回归解码方式，结合源文信息、先验知识和已生成历史译文来预测下一个词，每阶段解码器为不完整的块生成一个相应的词或符号，如式(1)所示：其中， P(y|x)表示条件概率， x表示输入序列， y表示输出序列；表示第i块中第t个词或符号；为第i块已生成历史译文； L为块的总长度， K表示块的个数；计算第i块Si中预测的词或符号如式(2)所示：其中， V表示词汇表， <BOS>和<EOS>分别表示起始符和结束符； P()表示对应表达式的概率分布； argmax表示求使得该概率最大的参数集合；当时,表示Si块开始解码，允许插入约束术语库；当时，表示Si块未完成，允许继续解码；当Si＝<EOS>时，表示Si块已完成，停止解码；当整个解码过程中预测的词都为<EOS>、历史信息不变且达到最大长度时，表示此序列解码已完成。 3.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法，其特征在于，步骤2中，在正式引入先验知识并解码阶段，通过句子边界y0＝<s></s>进行初次迭代，在删除历史译文中错误的词之前，用目标约束填充y0序列，目标序列通过编辑迭代进行优化，其中， <s>表示句子开头， < /s>表示句子结尾；其中，先验知识融入的方法为：解码器的输入为源语言词嵌入均匀映射z， z＝f(x； θenc)， f()表示映射函数， x表示源语权　利　要　求　书 1/2 页 2 CN 114492468 A 2言输入序列，以及给定的n组先验知识，其中， zk＝ε(xi), t＝1,2,...,Ty,n＝P1, P2,…,Pn； θenc表示编码器的相关参数； zk表示第k个块的映射结果； ε(xi)表示阶跃函数； t表示当前时间步； Tx表示源语言序列长度， Ty表示目标语言序列长度； Pn表示第n对先验知识；每对先验知识Pj由不同的词或短句wj构成， j＝1,2,…,n；解码器在正式解码前，预先结合源语言信息，从先验知识库中选取对应的目标语言，并插入待生成序列y0，删除冗余词的方法为：在正式解码时，结合约束条件、源文信息、已生成历史译文，执行删除操作。 4.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法，其特征在于，步骤2中，引入一个约束掩码来指示约束标记在序列中的位置，并规定禁止删除约束掩码所指定的约束标记；通过随机加入约束掩码占位，每次迭代时，会将约束掩码的位置重新进行计算并更新，最终从先验知识库中选取合适的候选文来替换对应的约束掩码。 5.如权利要求4所述的一种利用半自回归融合领域术语的低资源机器翻译方法，其特征在于，引入约束掩码操作包括两个阶段：约束掩码预测和候选文预测；约束掩码预测阶段，在每次迭代中，对于解码器的输入序列y， y＝<s>y1,y2,…,yn</s>, 其中， <s>表示句子开头， </s>表示句子结尾，模型会在y中每一个可能的插槽(yi,yi+1)中，利用一个二分类器来预测是否会添加约束掩码，约束掩码记为<PLH>，如式(3)所示：其中，表示约束掩码预测器对序列y中第i个词的预测结果， θ表示模型参数， softmax表示分类函数， hi表示第i个词的隐藏状态， hi+1表示第i+1个词的隐藏状态， concat 表示拼接函数， n 为序列y的长度；在候选文预测阶段，对于上述预测的每个约束掩码，模型通过训练一个字符预测器，从先验知识库中选取实际字符来对该占位符进行替换，如式(4)所示：其中，表示候选文预测器对序列y中存在掩码的位置的预测结果， θ表示模型参数， softmax表示分类函数， hi表示第i个词的隐藏状态， yi为序列中第 i个词；为逻辑符号，表示“任意的”； C为与词嵌入矩阵共享的参数。 6.如权利要求1所述的一种利用半自回归融合领域术语的低资源机器翻译方法，其特征在于，步骤3中，首先，在原始训练语料中加入先验知识库，并训练一种自回归的翻译模型作为教师模型；然后，对源文翻译并获得译文y′；最后，用伪平行语料(x,y ′)训练非自回归的翻译模型，其中x表示源语言的输入序列。权　利　要　求　书 2/2 页 3 CN 114492468 A 3

专利 一种利用半自回归融合领域术语的低资源机器翻译方法

专利一种利用半自回归融合领域术语的低资源机器翻译方法