Kaggle 正式发布了 2021 年度报告,超过 2.5 万名开发者参与调查,但来自中国的 Kaggle 数据科学家应该并不多。
这是 Kaggle 进行用户深度调查和公开分享结果的第五个年头。在调查过程中,超过 25000 名数据科学家和机器学习工程师提交了关于自身背景和日常经验的答案——从教育细节到薪水,再到偏爱的技术等。
调查在 2021 年 9 月 1 日至 2021 年 10 月 4 日进行,梳理数据后,得到共计 25973 个有效回复。
与往年一样,参与调查并获得所设奖项的用户受到一定限制:
假如您是克里米亚地区、古巴、伊朗、叙利亚、朝鲜的居民,或者受到美国出口管制或制裁个人 / 实体代表,不得参与竞赛。
当然,这份报告只关注了部分群体的数据,14% 的受访者目前的职位是「数据科学家」。报告分为五个部分:
在今年的调查报告中,XGBoost 成为受访开发者最喜欢的机器学习框架之一,排名第三(去年是排名第四)。
图源:XGBoost 核心开发者、CMU 助理教授陈天奇发表感言。
相比去年,Keras 的排名有所下降,François Chollet 表示,Keras 下降了 3 个百分点,而 TensorFlow 增加了 3 个百分点,这是因为 99% 的新 TF 使用都利用了内建的 Keras。
技术
交互式的开发环境(IDE)
基于 Jupyter 的 IDE 仍然是数据科学家的首选工具,大约四分之三的数据科学家都在使用这一工具。VS Code 紧随其后,使用人数占比为 38%。
虽然 VS Code 的受欢迎程度远不及 Jupyter Notebook,但从历年情况来看,它的受欢迎程度是逐年提升的。
方法 & 算法
和去年一样,最常用的算法是线性回归和逻辑回归,其次是决策树和随机森林。在更复杂的方法中,梯度提升机(gradient boosting machine,GBM)和卷积神经网络是最流行的方法。
此外,我们还可以看到大型语言模型流行度的逐年增长,如基于 transformer 的 BERT、GPT-3 等。
机器学习框架
在机器学习框架领域,基于 Python 的工具仍占主导地位。
和去年一样,Scikit-learn 以超过 80% 的采用率位居第一,它就像一把瑞士军刀,在很多项目中都能派上用场。TensorFlow 和 Keras 主要用于深度学习,采用率都在 50% 左右。梯度提升库 XGBoost 位居第三,采用率和前两年差不多。
尽管从总体来看,PyTorch 的排名不在前三,但它的逐年增长势头依然强劲。
企业云计算
云计算领域最受欢迎的前三位重磅玩家依然是 Amazon Web Services、Google Cloud Platform 和 Microsoft Azure。
那些使用云服务的人还被问及调查中的具体产品。亚马逊的弹性云计算(Elastic Compute Cloud)是最受欢迎的云计算产品,但谷歌云的计算引擎和 Azure 的虚拟机也得到了广泛的采用。
同样,亚马逊的 Simple Storage Service(S3)也是最受欢迎的数据存储产品,但 Google Cloud Storage 和 Azure Data Lake Storage 也有较高的采用率。
企业机器学习工具
和去年一样,在 ML 的企业客户中,Amazon SageMaker 是迄今为止最受欢迎的选择。排在 SageMaker 后面的是 Databricks——它的采用率与 Azure ML Studio 相似(约 13%),比谷歌 Cloud Vertex AI 的采用率高。
企业大数据
关于数据库,数据科学家们并没有明确的偏好。MySQL、PostgreSQL 和 Microsoft SQL Server 保持在前三名。
机器学习环境
与去年相比,现在有更多的数据科学家使用工具来跟踪和管理他们的实验。其中,TensorBoard 仍然是最受欢迎的工具(22.3%),MLflow 紧随其后(18%)。
自动化机器学习
Google Cloud AutoML 在 AutoML 类别中保持了第一。
Google Cloud AutoML 技术的采用在过去几年里稳步增长。
TPU
在算力硬件方面,GPU 仍然是主流,谷歌的 TPU 也显示出了逐年增长的趋势。
数据科学家概况
性别
在 2021 年,数据科学领域依旧面临着性别分布不均的问题。在工作场所,82% 的用户是男性。从过去五年的数据分析,性别差异问题始终没有得到明显的改善。
年龄
同时,数据科学仍然是一个相当年轻化的职业,超过一半的数据科学家年龄在 22 到 34 岁之间。
国家
国家人口统计数据层面,与去年基本相同,印度占 Kaggle 数据科学家的 24.4% ,此外 12.2% 的数据科学家居住在美国。巴西排名第三但远远落后,低于 4.3%。
教育
高等教育
研究生学历仍然是数据科学家的主流,超过 62% 的数据科学家拥有硕士或博士学位。少于 5% 的数据科学家只有高中文凭。
与往年同期相比,没有高学历的数据科学家越来越常见,但高学历群体仍然占比接近 64%。
持续学习
数据科学和机器学习的迭代是非常快的,在当下比较流行的在线学习资源平台中,Kaggle 数据科学家最喜欢 Coursera。
Kaggle 学习课程则排在第二位,从去年到现在,Kaggle 学习课程的受欢迎程度增长了 9%。
数据科学和机器学习经验
编程经验
大多数 Kaggle 数据科学家都有编程经验,这份报告显示他们大多有一年以上的编程经验,没有编程经验的人极少。
机器学习经验
相比于编程,大多数 Kaggle 数据科学家更不熟悉机器学习。约 55% 的数据科学家机器学习经验不足三年。只有不到 6% 的专业数据科学家已有十年以上的机器学习从业经验。值得注意的是,美国数据科学家的机器学习经验普遍略多于全球受访者。
就业
薪酬
报告中的调查结果显示,美国科技公司给数据科学从业者的薪酬大多为 6 位数(美元)。而在全球范围内,数据科学从业者的薪酬会普遍低一些,但分布较为均匀。其中呈现出一些地区趋势,例如印度,近 90% 的人每年的收入低于 50000 美元。
对比美国和印度两个国家的薪资会发现,大多数美国数据科学家的年薪超过了 100000 美元,而印度只有 3% 的数据科学家能够达到这个薪资水平。
从事数据科学的公司
和去年的调查结果一样,大型企业和小型初创公司是数据科学家最常选择的公司类型。一半以上的公司员工数量少于 250 人,约 20% 的公司有超过 10000 人的员工。
数据科学团队
数据科学团队的规模与去年相比没有显着变化——超过一半的数据科学家仍在小组人数不超过 5 人的公司工作,约 20% 的人在含 20 名数据科学家的团队工作。
开销
今年的调查报告显示从业者们在机器学习和云计算产品上投入了大量资金,但并非所有数据科学家都是如此。超过四分之一的数据科学家声称根本没有这部分开销,而约十分之一的人在过去五年中花费了超过 100000 美元。
与全球同行相比,美国数据科学家在云上的花费会更多一些。与其他国家相比,最高可达其他国家从业者开销的两倍多。
报告链接:
https://www.kaggle.com/kaggle-survey-2021
既然来了,说些什么?