2096 字

自定义大学排行榜

比赛介绍

这是和鲸社区与 COS 统计之都联合举办的云讲堂实战系列活动第一场,本活动旨在从实际问题出发训练某综合性数据分析技能,优秀选手将通过统计之都云讲堂报告展示自己的成果。第一场的实际任务是自定义大学排行榜,主要训练指标生成、可视化与可重复性报告的撰写等技能。

COS 统计之都 是一个旨在推广与应用统计学知识的网站和社区。由谢益辉创办,现任理事会主席为常象宇,现由世界各地的众多志愿者共同管理维护。

背景介绍

对数据科学社区而言,生成综合指标进行排名其实是经常会遇到的问题,例如什么样的文章要靠前推荐?什么商品更适合某类客户需求?而在研究工作中,很多时候也需要设计综合指标来辅助决策。例如,空气质量指数就是一个涵盖六种污染物浓度分指数的综合指标,而其公布的数值其实是对六个指标取最大值,也就是说,如果你看到空气质量指数同样是100的两个城市,一个可能是因为颗粒物超标,另一个可能是臭氧超标,这里的设计原则是木桶原理,取最差的那一个。社会科学中很多指标的生成往往也暗含了不同的选择标准或指标权重,例如消费者物价指数CPI的计算就会涉及多种商品的价格加权,美国CPI里食品比重不到8%而法国则在15%左右。这些加权或设计原理往往需要相关专业知识来背书,因此在常规的数据科学训练里很少被提及,但实战中却又特别需要

要想训练综合指标的设计与生成,最简单的方法就是通过真实数据来研究一个通用主题。大学排行就是这样一个适合你练手的项目,任何一所大学都能找到自己排名靠前的某个排行榜来作为招生的宣传,考生与家长也经常喜欢用排名来印证自己的选择是合理的。同时,好或者不好其实是一个很难定义的东西,国际上较为公认的大学排行有四个:QS、USNews、泰晤士报还有上海软科的世界大学排名,他们一般会构建一些量化子指标分别打分,最后算总和进行排名。

但对个体而言,其实看重的点并不一样,例如大多数排名会算论文发表量,但如果学生不喜欢做学术,带这个指标的排名其实对他意义不大;从纯结果看,学生毕业后 10 年的年均收入对于大多数打工人可能很重要,但排名里可能完全不考虑。此外,大学排行里其实也掺杂了很多商业或可优化因素,例如泰晤士报排名很多年来都是牛津排第一,而 USNews 排名美国大学时会考虑录取率,这就搞的很多有钱的私校在申请季大量投广告来拉低录取率。

在奥巴马时代,美国政府意识到排名的乱象已经形成了误导,于是教育部就出钱收集了大量的大学相关数据免费公开到网上,这样感兴趣的家长和学生可以根据自己对未来的规划来排名申请大学。这个项目运行到现在不说是大获成功吧,也可以说门可罗雀。虽然数据每年都更新且全部透明公开带 API 跟文档,但利用率其实不高。 因此,可以利用这部分数据来训练综合指标的设计与生成,打造一个你认为合理的美国大学排行榜。

首先,这是个竞赛,是个有奖竞赛,获奖者会受邀到统计之都云讲堂做在线报告。

其次,这个竞赛需要的数据量偏大,但和鲸社区提供了计算资源,可以直接在线进行数据分析。

再次,这个竞赛可以让你了解下美国教育系统,特别是联邦学生贷款的现状,可以从中发现一些问题,如果参赛者有兴趣,可以将其投稿给专业期刊作为自己的学术成果发表或作为研究项目列入简历。

这里给一个简单思路示例。知名数据分析网站538就针对这部分数据进行过分析并撰写了报告,通过毕业后收入对不同专业进行了排名,发现很多有意思的结果:从收入看STEM(科学、技术、工程、数学)这个传统认为收入比较高的专业里S,也就是科学收入并不高;心理学很流行但其实工资并不高;精算行业收入很高,但失业率也很高等,这些结果都有助于你去构造一个大学排名指标,而且这篇文章的代码在GitHub上

数据读取示例

如果用R可使用rscorecard包来通过API读取数据

## 在 https://api.data.gov/signup/ 注册API key
sc_key('YOUR_API_KEY_HERE')
df <- sc_init() %>% 
    sc_filter(region == 2, ccbasic == c(21,22,23), locale == 41:43) %>% 
    sc_select(unitid, instnm, stabbr) %>% 
    sc_year("latest") %>% 
    sc_get()

时程安排

  • 报名 ddl:1 月 27 号 23:59
  • 报告提交ddl:2 月 10 号 23:59
  • 作业汇报交流会:2 月 18 号 19:00(腾讯会议号请关注统计之都公众号或和鲸活动页面更新)

奖项设置

TOP1:优秀奖。将获得 800 元稿酬、电子证书、鲸奇徽章。 TOP2-4:创意奖。将获得 200 元稿酬、电子证书。 其他有效提交:参与奖。将获得《现代科研指北》纸质书 1 本、电子证书。

报告要求

这个竞赛没有标准答案与指标,你需要提交的是在线的 Jupyter Notebook 项目,需要包含从数据清洗到指标生成及可视化的全过程且包括理由。也就是说,你需要提交的是一份具有可读性的可重复性报告,要说明指标设计的原因、有效性、灵敏度及延展性,并生成相关图表或可视化面板。

当然,你也可以只针对一个或几个指标进行可视化与深入讨论,结合新闻与相关研究撰写挖掘其中隐含的例如歧视、冷热门专业、学费/收益比等现象,给出你认为值得关注的结论。

祝玩得愉快!

面向人群

  • 想要提高数据分析实战能力的学生、老师等研究人员
  • 对指标设计感兴趣的数据分析从业者

主办方

COS 统计之都:专业、人本、正直的统计学服务平台。 主页:https://cosx.org/

活动链接:https://www.heywhale.com/home/activity/detail/63b7ecd6555e5f7e505374af