您当前的位置：首页 > 科技

新闻推荐系统数据集（新闻推荐算法）

时间：2024-08-29 07:54:53

本篇目录：

1、推荐系统为什么要分测试集和训练集?2、agnews数据集多少年3、评价推荐系统的几个标准4、07_推荐系统算法详解5、新闻文本数据怎么分类?6、推荐系统之评估方法和评价指标PR、ROC、AUC

测试集：机器学习学科中，学习样本三部分之一，测试集用来检验最终选择最优的模型的性能如何。训练集：机器学习学科中，学习样本三部分之一，训练集用于建立模型。

测试集是输入数据在最终得到的模型得到的结果，是训练好的模型在模拟的“新”输入数据上得到的输出。测试集只能在最后用于测试模型的性能，不能拿来训练。

因为训练集和测试集均源自同一分布中，随着时间的流逝，近期样本的分布与训练模型的样本分布会有变化，需要校验训练好的模型在近期样本(验证集)是否有同样的效果，即模型的稳定性、鲁棒性、泛化误差。

1、agnews数据集开始于2004年。agnews数据集是学术新闻搜索引擎cometomyhead从2000多个新闻源收集的新闻文章的集合。该数据集包括120000个训练样本和7600个测试样本。

1、其中离线评估的主要方法包括 Holdout检验、交叉检验、留一验证、自助法等，评价指标主要包括用户满意度、预测准确度、召回率、覆盖率、多样性、新颖性、流行度、均方根误差、对数损失、P-R曲线、AUC、ROC曲线等等。

2、NDCG常用于作为对排序的评价指标，当我们通过模型得出某些元素的排序的时候，便可以通过NDCG来测评这个排序的准确度。 NDCG首先要从CG（cumulative gain，累计增益）说起，CG可以用于评价基于打分/评分的个性推荐系统。

3、电商：推荐核心目的是促成交易，推荐带来的交易笔数占总交易的占比，或总交易金额与GMV的比例，是最直接的评价指标从推荐激发购物者兴趣，到用户完成订单，有漫长的操作链条，所以还可以分解动作以更好的衡量每个环节的效果。

4、随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是 AUC 值。AUC值(面积)越大的分类器，性能越好。PR曲线 PR曲线的横坐标是精确率P，纵坐标是召回率R。

5、一个完整的推荐系统一般存在3个参与方：用户、物品提供者和提供推荐系统的网站。以图书推荐为例，首先，推荐系统需要满足用户的需求，给用户推荐那些令他们感兴趣的图书。

6、在信息检索、统计分类、识别、预测、翻译等领域，两个最基本指标是准确率和召回率，用来评价结果的质量。

基于用户(User-CF)：基于用户的协同过滤推荐的基本原理是，根据所有用户对物品的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，并推荐近邻所偏好的物品。

推荐系统的目的是通过推荐计算帮助用户从海量的数据对象中选择出用户最有可能感兴趣的对象。

首先回顾一下UserCF算法和ItemCF算法的推荐原理：UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品，而ItemCF给用户推荐那些和他之前喜欢的物品具有类似行为的物品。

这种算法基于一种物以类聚人以群分的假设，喜欢相同物品的用户更有可能具有相同的兴趣。基于协同过滤推荐系统一般应用于有用户评分的系统中，通过分数去刻画用户对于物品的喜好。

完全个性化可以只基于用户行为进行推荐，在构建推荐算法时只考虑到用户个人的特征和行为，不需要考虑其他用户，这也是最常见的内容推荐方式。

算法核心：给用户推荐那些和他们喜欢的内容相似的内容。

新闻分类 1．消息：字数限制在1000字以内。2．评论：包括社论、评论员文章、署名时评、述评、短评等，字数限制在2000字以内。3．通讯：包括新闻特写、新闻综述、新闻调查等，字数限制在3000字以内。

文本分类的应用文本分类是一种将文本按照预先定义的类别或标签进行自动分类的方法。它可以应用于垃圾邮件过滤、新闻分类、情感分析等领域。

新闻稿件分类：消息、通讯、评论等。结构：包括标题、导语、主体、结语和背景五部分。前三者是主要部分，后二者是辅助部分。标题：高度概括，抓人眼球。导语：用来提示消息的重要事实，使读者一目了然。