行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211165115.7 (22)申请日 2022.09.23 (71)申请人 杭州联川生物技 术股份有限公司 地址 310018 浙江省杭州市杭州经济技 术 开发区6号大街26 0号16幢四层 (72)发明人 方超 郎秋蕾 陈志锋  (74)专利代理 机构 杭州信与义专利代理有限公 司 33450 专利代理师 万景旺 (51)Int.Cl. G06F 40/169(2020.01) G16B 20/30(2019.01) G06F 16/22(2019.01) (54)发明名称 一种基于位点映射的基因组测序数据快速 注释方法和系统 (57)摘要 本发明公开了一种基于位点映射的基因组 测序数据快速注释方法和系统, 属于生物信息技 术领域。 本发 明首先将所有功能组件的起始位点 和终止位点构建映射值, 并利用该映射值建立索 引文件, 针对待注释位点, 同样获得映射值, 进 一 步在索引文件中搜索映射值, 若落在某一功能组 件的起始位点映射值和终止位点映射值中间, 进 一步判断所有待注释位点是否落在该功能组件 的起始位点和终止位点之间, 从而进行注释。 利 用本发明, 可 以大大提高搜索注释的效率, 降低 注释的时间成本和计算成本 。 权利要求书2页 说明书9页 附图1页 CN 115455920 A 2022.12.09 CN 115455920 A 1.一种基于位 点映射的基因 组测序数据快速注释方法, 其特 征在于, 包括以下步骤: S1, 建立索引文件: 获得测序样本来源物种的功能组件区的起始位点和终止位点, 对于每一个位点, 利用 公式(1)获得映射 值: 其中, Gi代表第i个位点的映射值, INT表示取整运算, Si代表第i个位点数值, N为根据所 述来源物种染色体长度确定的值, Li代表第i个位 点的位数, 若Li≤N则Li‑N=1, 由此获得所有功能组件区的起始位点和终止位点的映射值, 按下列格式构建索引文 件: Chr S E s e function 其中, Chr代表功能组件区所在染色体位置信息, S代表功能组件区起始位点映射值, E 代表功能组件区终止位点映射值, s代表功能组件区起始 位点, E代表功能组件区终止位点, function代表功能组件区的类别; S2, 获得待注释位点的映射值: 其位点数值为Q, 同样利用公式(1)获得待注释位点的映 射值G; S3, 将步骤S2获得的映射值G在所述索引文件的第2列和第3列进行搜索, 若对于某一功 能组件区j, G满足Sj≤G≤Ej, 进一步判断Q是否满足sj≤Q≤ej, 若满足, 则所述待注释位点 可注释位于第j个功能组件区。 2.根据权利要求1所述的基因组测序数据快速注释方法, 其特征在于, 所述N的确定方 法具体如下: (1)获得每条染色体的长度CL及基因数目GN, 并计算CL/GN; (2)获得所有染色体CL/GN的代表数MN, 除以数值q, MN/q结果的整数位数即为N值, 其 中 q=1~10 0。 3.根据权利要求2所述的基因组测序 数据快速注释方法, 其特征在于, 所述代表数选自 中位数、 众 数、 平均数中的一种。 4.根据权利要求1所述的基因组测序 数据快速注释方法, 其特征在于, 所述来源物种为 哺乳动物。 5.根据权利要求4所述的基因组测序 数据快速注释方法, 其特征在于, 所述功能组件区 包括启动子区、 外显子区、 内含子区、 promoter  CGIs、 intragenic  CGIs、 3'transcript   CGIs、 intergenic CGIs、 重复区和miRNA区。 6.一种基于位 点映射的基因 组测序数据快速注释系统, 其特 征在于, 包括以下模块: 索引库模块, 用于存 储索引文件, 其中, 所述索引文件的构建方法如下: 获得测序样本来源物种的功能组件区的起始位点和终止位点, 对于每一个位点, 利用 公式(1)获得映射 值: 其中, Gi代表第i个位点的映射值, Si代表第i个位点数值, N为根据所述来源物种染色体 长度确定的值, Li代表第i个位 点的位数, 若Li≤N则Li‑N=1,权 利 要 求 书 1/2 页 2 CN 115455920 A 2由此获得所有功能组件区的起始位点和终止位点的映射值, 按下列格式构建索引文 件: Chr S E s e function 其中, Chr代表功能组件区所在染色体位置信息, S代表功能组件区起始位点映射值, E 代表功能组件区终止位点映射值, s代表功能组件区起始 位点, E代表功能组件区终止位点, function代表功能组件区的类别, 输入模块, 用于接收测序数据, 获得待注释位点, 并利用公式(1)计算待注释位点的索 引值, 搜索模块, 分别与输入模块和索引库模块连接, 用于将输入模块获得的所述待注释位 点的索引值在所述索引文件的第2列和第3列进行搜索, 若对于某一功能组件区j, G满足Sj ≤G≤Ej, 进一步判断Q是否满足sj≤Q≤ej, 若满足, 则所述待注释位点可注释位于第j个功 能组件区, 结果输出模块, 用于将注释结果输出。 7.根据权利要求6所述的基因组测序数据快速注释系统, 其特征在于, 所述N的确定方 法具体如下: (1)获得每条染色体的长度CL及基因数目GN, 并计算CL/GN; (2)获得所有染色体CL/GN的代表数MN, 除以数值q, MN/q结果的整数位数即为N值, 其 中 q=1~10 0。 。 8.根据权利要求7所述的基因组测序 数据快速注释系统, 其特征在于, 所述代表数选自 中位数、 众 数、 平均数中的一种。 9.根据权利要求6所述的基因组测序 数据快速注释系统, 其特征在于, 所述来源物种为 哺乳动物。 10.根据权利要求9所述的基因组测序数据快速注释系统, 其特征在于, 所述功能组件 区包括启动子区、 外显子区、 内含子区、 promoter  CGIs、 intragenic  CGIs、 3'transcript   CGIs、 intergenic CGIs、 重复区和miRNA区。权 利 要 求 书 2/2 页 3 CN 115455920 A 3

.PDF文档 专利 一种基于位点映射的基因组测序数据快速注释方法和系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于位点映射的基因组测序数据快速注释方法和系统 第 1 页 专利 一种基于位点映射的基因组测序数据快速注释方法和系统 第 2 页 专利 一种基于位点映射的基因组测序数据快速注释方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:31:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。