【打卡】零基础入门推荐系统-新闻推荐-创新互联-古蔺大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

【打卡】零基础入门推荐系统-新闻推荐-创新互联

创新互联建站专注于企业成都营销网站建设、网站重做改版、双台子网站定制设计、自适应品牌网站建设、HTML5、商城系统网站开发、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为双台子等各大城市提供网站开发制作服务。

赛题背景

Task1：比赛报名

Task2：比赛数据分析

1. 用户属性分析

赛题背景

赛题以预测用户未来点击新闻文章为任务，数据集报名后可见并可下载，该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，将会从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测试集A，5万用户的点击日志数据作为测试集B。

Task1：比赛报名

1. 比赛报名

2. 下载数据

3. 读取数据

（1）读取articles.csv

显然，该数据包括文章id、该文章对应的文章类型id、文章创建时间、文章字数四列数据，共364047行，记录了364047篇文章的分类、创建时间和文章字数。

（2）读取articles_emd.csv

该数据为364047行，251列，我将其理解为通过某种手段将每篇文章原文表示成1行250列的嵌入式向量，简单看作每篇文章的特征。

（3）testA_click_log.csv

该数据共518010行，9列，第一列是用户id，第二列是该用户点击的文章id，第三列是阅读该文章的时间，第四列是点击该文章的环境（不懂环境表示什么），第五列是点击设备组（不懂设备组表示什么，是手机还是电脑还是平板吗？）第六列是点击操作系统（感觉是是windows还是ios还是linux还是android这些），第7列是点击国家，第8列是点击地区，第9列是点击来源类型（感觉类似于从网页点击还是聊天窗口点击还是朋友圈点击这种），是记录了不知道5万用户（赛题说明中有说总共包括30万用户，近300万次点击，从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测试集A，5万用户的点击日志数据作为测试集B）在哪个国家哪个地区通过XX渠道，在XX环境，XX设备组上，用XX操作系统，阅读了哪篇文章。

（4）train_click_log.csv

点击日志的训练集，和测试集A一样，只不过有1112623行，比测试集多1倍左右。

（5）提交数据

其中user_id为用户id, article_1,article_2,article_3,article_4,article_5为预测用户点击新闻文章Top5的article_id依概率从高到低排序.

（6）简单思考

本赛题的目的是预测用户未来将点击的1篇新闻文章（可以根据概率预测5篇），有一个问题就是，已经阅读过的文章是否默认不会再阅读了？——或许能简单提高一下正确率。

这36万篇文章有字数、类型、创建时间和嵌入式向量4个特征，用户阅读文章肯定大部分都是同类的，和类型有关，也有可能和字数有关，嵌入式向量个人感觉其实和类型差不多，但是其表示的信息比文章类型丰富的多，因此若能利用上肯定能大幅度提高正确率。至于创建时间的话，用于阅读某篇文章肯定是在这个文章发布后，因此如何在模型中利用文章创建时间和用户阅读时间是需要考虑的。文章一经发布，被阅读的人越多，则更有可能被更多的人阅读是显然的。

Task2：比赛数据分析 1. 用户属性分析

（1）训练集与测试集中分别有多少用户

可以看到，训练集共有ID为0~199999的用户共20w人；测试集共有ID为200000~249999的用户共5w人。

（2）训练集和测试集用户城市分布

训练集和测试集用户分布的城市范围都是一样的，都是1~11这11个城市。绘制出训练集20w用户的城市分布，由于点数太多，很难看出什么，大概能看出大多数人都在1、10、11城市点击过。

随机抽取1000个用户，绘制散点图，发现分布在其他城市的用户很少。

因此查看分布在各个城市的用户数目，城市1~11的用户分别为192713, 348, 277, 203, 227, 412, 232, 509, 470, 3493, 1906，显然，用户主要分布在城市1，且远大于其他城市，单一用户可能存在多个城市浏览的情况。

（3）平均每个用户会点击多少个文章

你是否还在寻找稳定的海外服务器提供商？创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源，准确流量调度确保服务器高可用性，企业级服务器适合批量采购，新人活动首月15元起，快前往官网查看详情吧

新闻标题：【打卡】零基础入门推荐系统-新闻推荐-创新互联
文章出自：http://scgulin.cn/article/ccscpc.html

新闻中心

其他资讯