行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111308395.8 (22)申请日 2021.11.05 (71)申请人 语联网 (武汉) 信息技 术有限公司 地址 430000 湖北省武汉市东湖新 技术开 发区高新大道 999号未来科技城B2栋 (72)发明人 毛红保  (74)专利代理 机构 北京中北知识产权代理有限 公司 11253 代理人 李新昂 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/51(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01)G06F 16/335(2019.01) G06F 40/194(2020.01) G06N 20/00(2019.01) (54)发明名称 一种任务自适应的机翻引擎动态训练方法 (57)摘要 本发明公开了一种任务自适应的机翻引擎 动态训练方法, 包括训练基础机翻引擎、 获取精 调语料、 机翻引擎精调训练。 本发明的有益效果 是: 基于基础语料库训练一个基础机翻引擎, 当 有翻译任务到达时, 根据待译文档获取一批与当 前翻译任务密切相关的精调语料, 在基础机翻引 擎上叠加精调语料进行精调训练, 从而得到一个 与当前任务密切相关的精调机翻引擎, 用该引擎 完成当前的翻译任务, 实现整体翻译质量的提 升。 权利要求书2页 说明书5页 附图1页 CN 113988092 A 2022.01.28 CN 113988092 A 1.一种任务自适应的机翻引擎动态训练方法, 其特 征在于: 包括以下步骤 步骤一、 训练基础机翻引擎, 基于基础平行语料库, 利用主流神经网络机器翻译平台, 训练一个 基础机翻引擎; 步骤二、 获取精调语料, 获取与当前待译文档密切相关的精调语料, 其中, 对于精调语 料采用挖掘 相似语料、 提取 领域语料或识别关键语料的方式进行获取; 步骤三、 机翻引擎精调训练, 在基础机器翻译引擎上, 利用上一步选定的精调语料进一 步精调训练, 训练结束后, 即得到当前任务相关的机翻引擎。 2.根据权利要求1所述的一种 任务自适应的机翻引擎动态训练方法, 其特征在于: 所述 步骤一中, 采用Marian翻译平台, 其输入是基础平行语料库, 输出是机器翻译引擎模型文 件。 3.根据权利要求1所述的一种 任务自适应的机翻引擎动态训练方法, 其特征在于: 所述 步骤二中, 对于挖掘 相似语料, 具体包括: ①对待译文档分句, 形成待译文档的句子集合, 先将文档按段落拆分, 每个段落再按分 句符拆分, 即完成待 译文档的分句; ②在基础语料库原文中匹配与待译句子集合中的每个句子相似的一个或多个原文, 同 时提取相似的原文及其对应的译 文, 即获得与待 译文档相似的语料。 4.根据权利要求3所述的一种 任务自适应的机翻引擎动态训练方法, 其特征在于: 从基 础语料库中查找与待译句 子匹配的语料时, 通过编辑距离的算法计算句 子相似性, 选用基 于统计的方法: 编辑距离是指两个字串之间, 由一个转成另一个所需的最少编辑操作次数, 如果距离 越大, 说明越是不同, 许可 的编辑操作包括将一个字符替换成另一个字符, 插入一个字符, 删除一个字符。 5.根据权利要求3所述的一种 任务自适应的机翻引擎动态训练方法, 其特征在于: 从基 础语料库中查找与待 译句子匹配的语料时, 选用基于深度学习的方法: a.基于Word2Vec的余弦相似度, 针对每个句子, 计算该句中所有词语的词向量并累加, 即获得句向量; 计算两个句向量的余弦距离作为 其相似性度量; b.基于预训练句 嵌入模型, 基于预训练句 嵌入模型获取每个句子的嵌入向量, 再用向 量的余弦距离作为 其相似性度量。 6.根据权利要求1所述的一种 任务自适应的机翻引擎动态训练方法, 其特征在于: 所述 步骤二中, 对于提取 领域语料, 领域语料包括 术语语料和高频词语料两 部分, 其中: 利用术语识别工具识别待译文档 中的术语, 再从待译文档 中提取含高频术语的句子, 将这部分句子交由人工译员翻译, 获得含高频术语的领域语料; 利用高频词挖掘工具挖掘待译文档中的高频词, 再从待译文档中提取含高频词的少部 分句子, 将这部分句子交由人工译员翻译, 获得含高频词的领域语料。 7.根据权利要求1所述的一种 任务自适应的机翻引擎动态训练方法, 其特征在于: 所述 步骤二中, 对于识别关键语料, 关键语料定义为: 当前的基础翻译引擎翻译不好的待译文档 的句子及其对应的译 文, 具体包括: 通过基础翻译引擎对待译文档进行初译, 再使用机翻译文质量评估工具对全部译文进 行评估, 选择评估质量最差的少部 分句子, 将这部 分句子交由人工译员后编辑, 获得当前待权 利 要 求 书 1/2 页 2 CN 113988092 A 2译文档的关键语料。权 利 要 求 书 2/2 页 3 CN 113988092 A 3

.PDF文档 专利 一种任务自适应的机翻引擎动态训练方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种任务自适应的机翻引擎动态训练方法 第 1 页 专利 一种任务自适应的机翻引擎动态训练方法 第 2 页 专利 一种任务自适应的机翻引擎动态训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:58:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。