行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111335878.7 (22)申请日 2021.11.12 (71)申请人 长春工业大学 地址 130000 吉林省长 春市朝阳区延安大 街2055号长春工业大学 (72)发明人 王贵参 郭晓瑄 伍俊霖 王红梅  (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/958(2019.01) G06N 20/00(2019.01) (54)发明名称 一种中文新闻标题及长文本内容的多类别 数据集构建方法 (57)摘要 本发明公开了一种包含标题及内容的多类 别的中文新闻数据集的构建方法, 目的是构建一 个高效的新闻数据集。 该方法的步骤主要包括: 新闻文本数据搜集、 数据清洗、 数据集划分及评 价, 并使用英文制表符将标签、 新闻标题和新闻 内容分隔开, 在传统机器学习算法和深度学习算 法上进行文本分类实验并引入准确率、 召回率、 f1‑score值进行评价, 实验结果表明, 本发明的 数据集在这些算法上的表现非常令人满意。 目前 已有的一些新闻文本数据集主要问题在于数据 范围窄以及数据的时效性不强。 本发 明针对上述 情况做了改进, 数据范围更广、 涵盖的范围更大, 并且搜集到了更新的新闻数据。 在进行了以上改 进以后, 本发 明提出的数据集在诸多算法中能够 取得较好的效果。 权利要求书1页 说明书3页 附图2页 CN 113987132 A 2022.01.28 CN 113987132 A 1.一种中文新闻标题及长文本内容的多类别数据集构建方法, 其特点在于, 包括如下 步骤 步骤S1: 新闻文本数据搜集 在50多个热门新闻门户网站上搜集新闻数据, 包括人民网、 新华网、 新浪、 中国新闻网 等网站; 步骤S2: 数据清洗 对搜集到的数据进行处理, 只保留文本长度在200词以上的新闻文本数据, 共含9万份 新闻文本数据, 分为财 经、 房产、 教育、 科技、 军事、 汽车、 体育、 游戏、 娱乐 等九个类别; 步骤S3: 数据集划分 用英文制表符将标签、 新闻标题和新 闻内容分隔开, 并将数据集分为80%训练集、 10%验 证集、 10%测试集; 步骤S4: 数据集评价 利用测试集在传统 的机器学习算法和深度 学习算法上做文本分类, 通过计算新闻文本 分类模型的准确率、 召回率和F1值分析 数据集的优劣。 2.如权利要求1所述的一种中文新闻标题及长文本内容的多类别数据集构建方法, 其 特征在于: 步骤S1中, 本发明的数据来源于50多个用户群庞大的新闻门户网站, 例如中国新 闻网、 新浪网、 人民网、 新华网等, 并且涵盖财经、 房产、 教育、 科技、 军事、 体育、 游戏、 娱乐等 九个领域, 这使得本发 明的数据范围非常广泛, 并且有一定的真实性保障, 本发明的新闻数 据包含从2000年4月到2021年6月的数据。 3.如权利要求1所述的一种中文新闻标题及长文本内容的多类别数据集构建方法, 其 特征在于: 步骤S3中, 本发明的新闻数据被划分为80%的训练集、 10%验证集、 10%测试集, 能 够起到很好的训练效果, 本发明的数据同时包含标签、 新闻标题和新闻内容, 并用英文制表 符将它们分隔开, 这使得本发明可以被用于文本分类任务、 预测任务、 生成任务等, 并可以 取得比较好的效果。 4.如权利要求1所述的一种中文新闻标题及长文本内容的多类别数据集构建方法, 其 特征在于: 步骤S4中, 在若干典型机器学习算法和深度学习算法上使用本发明实现新闻文 本分类, 并引入准确率、 召回率、 F1值进行评价, 实验表明, 本发 明在上述算法中均取得不错 的效果。权 利 要 求 书 1/1 页 2 CN 113987132 A 2一种中文新 闻标题及长文本内容的多类别数据集构建 方法 技术领域 [0001]本发明属于自然语言处理领域, 尤其涉及到一种包含标题及内容的多类别的中文 新闻数据集的构建方法。 背景技术 [0002]新闻文本分类是自然语言处理的一个热门问题。 如今, 大众更偏向于从在线服务 媒体上获取每日新闻, 因为互联网上用户众多, 所以每天都会生成大量的新闻数据, 用户对 于信息的需求也在不断增长。 在这些众多的新闻数据中找到自己感兴趣的领域就变得非常 困难。 如果能将这些海量的新闻数据按照实际内容分成不同的类别, 对于用户来说, 浏览这 些新闻就会变得容易。 由于新闻文本具有多样性和复杂性, 且内容交叉、 内容相 近、 类别间 相似度较高、 界限不明确, 使用深度学习算法进 行新闻文本分类的可行性高于人工 分类。 训 练一个好的深度学习新闻分类算法首先需要合适的数据集。 因此, 构建一个好的数据集对 新闻文本分类 研究有重要意 义。 [0003]近年来, 新闻数据集领域的研究不断发展, Sun等人提出了一个中文新闻分类数据 集THUCNews, 该数据集涵盖了从2005年到2011年的新浪新闻历史数据, 数据量非常广, 共包 含74万新闻文档, 共分为财经、 彩票、 股票、 家具、 教育、 科技、 社会、 时尚、 时政、 体育、 星座、 游戏、 娱乐等14个分类类别。 Bai等人提出了一个用于语言模型自适应的公开中文数据集 CLAMAD, 该数据集包括四个不同的中文新闻领域: 体育、 股 票、 金融和时尚。 Wu等人提出了新 闻推荐的大型数据集MIND, 该数据集包含超过16万篇英文新闻文章, 每篇文章由标题、 摘要 和正文组成。 Sittar等人提出了一个 关于新闻信息传播的数据集, 涵盖三个信息传播领域: 体育、 自然灾害和气候变化。 [0004]与现有的中文新闻数据集相比, 本文提出的OpenTextNews有明显优势: 时效性更 强, 时间跨度更大。 OpenTextNews中的新闻数据包含从2000年4月到2021年6月的新闻, 既有 之前的一些数据, 也有最近比较新的数据。 涵盖范围广, OpenTextNews中的数据是在50多个 网站上搜集而来, 包括人民网、 新 华网、 新浪、 中国新闻网等, 每 类新闻都有涵盖大量数据。 发明内容 [0005]该方法阐述一种包含新闻标题和内容的多类别带标签的中文新闻数据集的构建, 该数据集名为OpenTextNews, 数据来源于多个热门新闻门户网站, 数据范围涵盖财经、 房产 等九个领域, 数据包含2000年4月至2021年6月。 本发明的数据集包含标签、 新闻标题、 新闻 内容, 可以用于新闻文本分类、 预测、 文本生成等多个任务。 [0006]步骤S1: 新闻文本数据搜集。 在50多个热门新闻门户网站 上搜集新闻数据, 包括人 民网、 新华网、 新浪、 中国新闻网等网站。 [0007]步骤S2: 数据清洗。 对搜集到的数据进行处理, 只保留文本长度在200词以上的新 闻文本数据, 共含9 万份新闻文本数据, 分为财经、 房产、 教育、 科技、 军事、 汽 车、 体育、 游戏、 娱乐等九个类别。说 明 书 1/3 页 3 CN 113987132 A 3

.PDF文档 专利 一种中文新闻标题及长文本内容的多类别数据集构建方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文新闻标题及长文本内容的多类别数据集构建方法 第 1 页 专利 一种中文新闻标题及长文本内容的多类别数据集构建方法 第 2 页 专利 一种中文新闻标题及长文本内容的多类别数据集构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:58:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。