专利一种中文新闻标题及长文本内容的多类别数据集构建方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111335878.7 (22)申请日 2021.11.12 (71)申请人长春工业大学地址 130000 吉林省长春市朝阳区延安大街2055号长春工业大学 (72)发明人王贵参　郭晓瑄　伍俊霖　王红梅　 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/958(2019.01) G06N 20/00(2019.01) (54)发明名称一种中文新闻标题及长文本内容的多类别数据集构建方法 (57)摘要本发明公开了一种包含标题及内容的多类别的中文新闻数据集的构建方法，目的是构建一个高效的新闻数据集。该方法的步骤主要包括：新闻文本数据搜集、数据清洗、数据集划分及评价，并使用英文制表符将标签、新闻标题和新闻内容分隔开，在传统机器学习算法和深度学习算法上进行文本分类实验并引入准确率、召回率、 f1‑score值进行评价，实验结果表明，本发明的数据集在这些算法上的表现非常令人满意。目前已有的一些新闻文本数据集主要问题在于数据范围窄以及数据的时效性不强。本发明针对上述情况做了改进，数据范围更广、涵盖的范围更大，并且搜集到了更新的新闻数据。在进行了以上改进以后，本发明提出的数据集在诸多算法中能够取得较好的效果。权利要求书1页说明书3页附图2页 CN 113987132 A 2022.01.28 CN 113987132 A 1.一种中文新闻标题及长文本内容的多类别数据集构建方法，其特点在于，包括如下步骤步骤S1：新闻文本数据搜集在50多个热门新闻门户网站上搜集新闻数据，包括人民网、新华网、新浪、中国新闻网等网站；步骤S2：数据清洗对搜集到的数据进行处理，只保留文本长度在200词以上的新闻文本数据，共含9万份新闻文本数据，分为财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐等九个类别；步骤S3：数据集划分用英文制表符将标签、新闻标题和新闻内容分隔开，并将数据集分为80%训练集、 10%验证集、 10%测试集；步骤S4：数据集评价利用测试集在传统的机器学习算法和深度学习算法上做文本分类，通过计算新闻文本分类模型的准确率、召回率和F1值分析数据集的优劣。 2.如权利要求1所述的一种中文新闻标题及长文本内容的多类别数据集构建方法，其特征在于：步骤S1中，本发明的数据来源于50多个用户群庞大的新闻门户网站，例如中国新闻网、新浪网、人民网、新华网等，并且涵盖财经、房产、教育、科技、军事、体育、游戏、娱乐等九个领域，这使得本发明的数据范围非常广泛，并且有一定的真实性保障，本发明的新闻数据包含从2000年4月到2021年6月的数据。 3.如权利要求1所述的一种中文新闻标题及长文本内容的多类别数据集构建方法，其特征在于：步骤S3中，本发明的新闻数据被划分为80%的训练集、 10%验证集、 10%测试集，能够起到很好的训练效果，本发明的数据同时包含标签、新闻标题和新闻内容，并用英文制表符将它们分隔开，这使得本发明可以被用于文本分类任务、预测任务、生成任务等，并可以取得比较好的效果。 4.如权利要求1所述的一种中文新闻标题及长文本内容的多类别数据集构建方法，其特征在于：步骤S4中，在若干典型机器学习算法和深度学习算法上使用本发明实现新闻文本分类，并引入准确率、召回率、 F1值进行评价，实验表明，本发明在上述算法中均取得不错的效果。权　利　要　求　书 1/1 页 2 CN 113987132 A 2一种中文新闻标题及长文本内容的多类别数据集构建方法技术领域 [0001]本发明属于自然语言处理领域，尤其涉及到一种包含标题及内容的多类别的中文新闻数据集的构建方法。背景技术 [0002]新闻文本分类是自然语言处理的一个热门问题。如今，大众更偏向于从在线服务媒体上获取每日新闻，因为互联网上用户众多，所以每天都会生成大量的新闻数据，用户对于信息的需求也在不断增长。在这些众多的新闻数据中找到自己感兴趣的领域就变得非常困难。如果能将这些海量的新闻数据按照实际内容分成不同的类别，对于用户来说，浏览这些新闻就会变得容易。由于新闻文本具有多样性和复杂性，且内容交叉、内容相近、类别间相似度较高、界限不明确，使用深度学习算法进行新闻文本分类的可行性高于人工分类。训练一个好的深度学习新闻分类算法首先需要合适的数据集。因此，构建一个好的数据集对新闻文本分类研究有重要意义。 [0003]近年来，新闻数据集领域的研究不断发展， Sun等人提出了一个中文新闻分类数据集THUCNews，该数据集涵盖了从2005年到2011年的新浪新闻历史数据，数据量非常广，共包含74万新闻文档，共分为财经、彩票、股票、家具、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐等14个分类类别。 Bai等人提出了一个用于语言模型自适应的公开中文数据集 CLAMAD，该数据集包括四个不同的中文新闻领域：体育、股票、金融和时尚。 Wu等人提出了新闻推荐的大型数据集MIND，该数据集包含超过16万篇英文新闻文章，每篇文章由标题、摘要和正文组成。 Sittar等人提出了一个关于新闻信息传播的数据集，涵盖三个信息传播领域: 体育、自然灾害和气候变化。 [0004]与现有的中文新闻数据集相比，本文提出的OpenTextNews有明显优势：时效性更强，时间跨度更大。 OpenTextNews中的新闻数据包含从2000年4月到2021年6月的新闻，既有之前的一些数据，也有最近比较新的数据。涵盖范围广， OpenTextNews中的数据是在50多个网站上搜集而来，包括人民网、新华网、新浪、中国新闻网等，每类新闻都有涵盖大量数据。发明内容 [0005]该方法阐述一种包含新闻标题和内容的多类别带标签的中文新闻数据集的构建，该数据集名为OpenTextNews，数据来源于多个热门新闻门户网站，数据范围涵盖财经、房产等九个领域，数据包含2000年4月至2021年6月。本发明的数据集包含标签、新闻标题、新闻内容，可以用于新闻文本分类、预测、文本生成等多个任务。 [0006]步骤S1：新闻文本数据搜集。在50多个热门新闻门户网站上搜集新闻数据，包括人民网、新华网、新浪、中国新闻网等网站。 [0007]步骤S2：数据清洗。对搜集到的数据进行处理，只保留文本长度在200词以上的新闻文本数据，共含9 万份新闻文本数据，分为财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐等九个类别。说　明　书 1/3 页 3 CN 113987132 A 3

专利 一种中文新闻标题及长文本内容的多类别数据集构建方法

专利一种中文新闻标题及长文本内容的多类别数据集构建方法