2019Kaggle最新DS&ML报告:你大爷还是你大爷!
时间:2019-11-15 12:10:32 热度:37.1℃ 作者:网络
编译:1+1=6
来自:Kaggle
前言
近日,Kaggle发布了名为《2019Kaggle数据科学和机器学习概要》的报告。此报告为Kaggle对其社区的第三次年度调查,调查内容来自19717个Kaggle成员的反馈。里面有很多有意思的内容,快让我们一睹为快吧!注:报告中所有的货币金额都是美元。
先总结,再分析
1、数据科学大部分是男性,这种不平衡与前几年没有变化。
2、超过一半的数据科学家年龄不到30岁。
3、不出所料,数据科学家都受过高等教育,超过一半的人获得了高等学位。
4、超过一半的受访者拥有少于五年的编程经验,甚至一些机器学习经验。
5、美国数据科学家的薪水远远超过其他国家。
6、大多数数据科学家在小型或大型公司中工作。超过一半的公司是机器学习新手。
7、本地开发环境是数据科学家执行其工作最常见的方式。
8、近四分之一的专业数据科学家还没有采用云计算。
9、TensorFlow和Keras仍然是占主导地位的深度学习框架。
10、美国在机器学习和云计算产品上的投入远远超过世界其他国家。
11、常规的算法,如线性回归和决策树,虽然不如RNN、CNN等复杂和强大,但它们仍然占主导地位。
12、与去年相比,谷歌Cloud AutoML的使用量几乎翻了一番。
1、数据科学家简介
▍性别
数据科学家的性别差异仍然很大,84%的用户是男性。美国的性别差距略小,为79%,而日本略高,为90%。无论在哪个地区,结果都是相对一致的。
▍年龄
千禧一代主导着数据科学,25-29岁是最常见的年龄段。在印度,这个数字甚至更年轻,41%的人是19-24岁。然而,各个年龄段的成年人都在探索数据科学,所有受访者中有18%的人年龄在40岁或40岁以上。
▍国家
来自美国和印度的受访者数量最多。其次是巴西和俄罗斯。
教育
▍高等教育
仅就在职数据科学家而言,超过70%的受访者拥有学士以上学位,其中大多数(约52%)拥有硕士学位。虽然19%的受访者拥有博士学位,但这一比例因国家而异。德国拥有博士学位的受访者比例最高,为38%,而印度的比例最低,不到5%。
超过99.5%的数据科学家在高中毕业后继续深造。
▍终身学习
超过70%的数据科学家说他们通过阅读博客来学习。使用Kaggle论坛在Kaggle用户中也很受欢迎,超过65%的用户使用该论坛。还有许多其他的回答,但有一件事是肯定的:绝大多数数据科学家仍在学习;只有约2%的受访者表示他们不使用任何媒体来提高他们的数据科学技能。
学无止境,不断充电!
数据科学和机器学习经验
全球数据科学家由同等数量的新手和经验丰富的老手组成。最常见的(33%)是有3-5年的工作经验。大约三分之一的人工作经验少于3年,另外三分之一的人工作经验超过5年。
花在学习代码上的时间
机器学习的正态分布较少。虽然大多数人有超过一年的经验,但35%的人仍处于使用机器学习的头两年。大约6%的人有超过10年的机器学习经验。
花在学习机器学习上的时间
就业
▍Pay
我们询问了数据科学家关于他们的工资、雇主类型以及他们如何度过这段时光的。结果因国家而异,特别是在Pay方面。
美国数据科学家的平均工资高于其他国家,其次是德国和日本。另一方面,印度的工资较低,近20%的印度受访者年收入不到1000美元。
那些在美国被雇佣为数据科学家的人属于我们调查中使用的最高等级的范围。大多数人的收入在10万到20万美元之间。
时间
▍时间花费
作为一名数据科学家,其最常见的职责是什么? 与复杂的机器学习相比,超过75%的人建议理解和分析数据是最常见的。也许这就解释了为什么Kagglers能够在每次新比赛的第一个小时内创造出如此多的EDA内核!超过一半的受访者提到了原型设计和机器学习实验。
▍使用数据科学的公司
我们向数据科学家询问了他们工作过公司的更多信息:员工人数、团队规模,以及这些公司是如何采用机器学习实践的。
公司规模(员工人数)
▍数据科学团队
数据科学团队的规模各不相同,但有25%的团队成员在20人以上。结合较低的范围,我们看到超过40%的人在少于5人的团队中工作。
在目前被雇佣为数据科学家的用户中,4%的人表示他们的团队规模为零。这些受访者要么没有把自己算在内,要么数据科学只是他们职责的一部分。
数据科学团队(员工人数)
▍企业机器学习的应用
结合其他问题,机器学习正变得越来越流行。超过30%的用户说他们公司最近开始使用机器学习方法,17%的用户说他们正在探索机器学习方法。自2018年以来,在拥有完善机器学习方法的公司工作的数据科学家比例增加了11%。
▍支出
从全球来看,多数受访者(23%)根本没有把钱花在机器学习和云计算产品上。
在美国,情况就不同了,多数人(24%)在过去五年里在产品上花费了超过10万美元。只有34%的人表示自己的消费低于1000美元,而全球这一比例接近43%。
过去5年企业支出
技术
▍开发环境
最常见的分析工具是本地开发环境。其中Jupyter-Lab和它的offshoots是最常见的,83%的数据科学家经常使用它。这也在情理之中哈!
▍方法和算法
受访者觉得算法越简单越好!
天猫双十一的销售额一个三次多项式就解决了
多么返璞归真!
天猫双十一销售额三次多项式拟合
常规的算法,如线性回归和决策树,虽然不如RNN、CNN等复杂和强大,但它们仍然占主导地位,因为它们更容易理解!
至于使用的机器学习框架,数据科学家使用多种工具。超过80% 的人使用Scikit-learn,这是一个包含流行数据科学算法的Python包。TensorFlow和Keras经常结合使用,二者仍然是主流的深度学习框架。
▍企业工具
大多数专业数据科学家都在使用云计算,尽管仍有超过24%的人没有使用。AWS、谷歌云平台和Microsoft Azure是目前数据科学家使用云工具的三大首选。
▍Automated机器学习
尤其值得注意的是自去年调查以来Google Cloud AutoML的增长。 总体而言,使用这个机器学习平台的受访者数量几乎翻了一番,美国数据科学家的增长速度与此类似。
来自:https://www.kaggle.com/
量化投资与机器学习微信公众号,是业内垂直于Quant、MFE、CST、AI等专业的主流量化自媒体。公众号拥有来自公募、私募、券商、银行、海外等众多圈内18W+关注者。每日发布行业前沿研究成果和最新量化资讯。
你点的每个“在看”,都是对我们最大的鼓励