本文原创首发于公众号 数据科学家养成记 (微信ID:louwill12),作者 鲁伟,经作者授权转载,禁止二次转载。
随着大数据时代的到来和数据的市场价值得到认可,数据分析师、进阶一点的还有数据挖掘工程师、甚至是金字塔顶尖的数据科学家,这些作为21世纪最性感的职业已成功吸引无数像笔者这样的热血小青年,阿里的一句“开启AI时代”的口号就足以让我等激动的准备把此身奉献给高大上的数据科学行业。除去像计算机、数学和统计学这些科班出身的童鞋,想要转行投身数据分析的其他行业人士也绝不在少数。但数据分析到底是什么、想要成为一名数据行业的从业者又要具备哪些素质,恐怕这才是大家真正需要关注的焦点。笔者花了一些时间,从数据采集到清洗、分析,从可视化到数据的深度挖掘,一整套数据分析处理流程给大家展示一下目前国内关于数据行业的招聘信息到底有些什么。
在爬虫界似乎有这样的传言,每一个爬虫进阶者都会拿拉勾网作为自己练习爬虫的对象,一来锻炼爬虫技术,二来了解招聘信息,拉勾网和谐的结构化界面给大家抓取数据提供了天然的便利,颇受各位crawler的青睐。拉勾网招聘信息界面如下:
笔者以“数据分析”、“数据挖掘”、“数据运营”和“数据产品经理”为关键词在拉勾网上搜索了相关数据类职位,运用R语言中的Rvest包和Selectorgadget插件构建爬虫框架,按照岗位名称(job_name)、公司名称(job_company)、所在城市(job_city)、工资(job_salary)、学历要求(job_edu)、经验要求(job_exp)、职位标签(job_tag)、行业类别(job_industry)、公司融资阶段(job_cat)、职位福利(job_temptation)和任职要求(jd)为特征属性抓取和清洗数据,其中任职要求(JD)特征仅抓取了数据挖掘类岗位的职位描述。在剔除部分有缺失值和异常记录后整理得到拉勾网1605条数据类岗位招聘信息,数据局部展示如下:
这里分析主要用到了ggplot2和plotrix这两个绘图包。
先来看看数据类岗位对学历的要求:
很明显,对于数据类岗位而言,本科学历要求是目前主流,硕士和专科学历也有一定比例,部分不限学历的岗位那一定是看重你的行业经验了,只有极少量的岗位是需要博士学历的,我们查询下数据便知:
数据类岗位对于经验的要求:
目前国内数据类岗位主要分布在哪些城市?
作为国内互联网行业较为发达的城市,北上广深杭所提供的数据类岗位数量占了全国将近90%的比例,而仅北京就占了一半的岗位提供数量,不得不惊叹帝都的互联网人才需求之大。上海作为国内经济金融中心,有着排名第二的数据类人才需求也无可厚非,杭州则由于阿里巴巴的加成,领衔一众互联网科技公司,数据分析人才需求也较为可观,广深相距不远,也有像腾讯这样的互联网大佬支撑,数据人才需求也是很大的。
想做数据分析的,可不要跑错了地方。
哪些行业需要数据分析人才?
移动互联网和金融、电子商务行业为数据分析提供了大量的就业机会,数据行业的繁荣也相应的催生了专门提供数据服务的公司,这块也有较大需求。而传统行业对数据人才的需求目前并不显著,相信随着互联网+对传统行业的革命加深,越来越多的传统行业会对数据分析产生需求。
对数据分析人才有需求的企业都处在怎样的一个发展阶段?
A轮以上融资的公司对数据岗位的需求相对较大,其中以上市公司为最。天使轮及其他不需要融资的企业规模较小,对数据分析与数据挖掘的需求也小很多。
丰富的数据从业经验是否就以为着30K以上的工资?
一个大家都乐意知晓的事实是,数据类岗位薪资通常都会有一个较高的起薪,高学历、零经验的应届毕业生拿到10K的薪资几乎已成常态,个别能力强的一段时间后拿到20K到30K的也大有人在。就数据行业而言,经验1-3年和3-5年是行业的香饽饽,数据分析与数据挖掘在国内兴起时间不长,很难有资深的数据科学从业者,经验5-10年就已可遇不可求,10年以上经验的业界大咖更是凤毛麟角。
数据行业高学历是否就意味着高薪资?
就像前述展示的一样,本科学历是数据行业资质的主流学历。相应的高学历也并一定意味着有超高薪的加成,本科学历且有一定的行业积累后拿到31-100K的薪资并不少见。
不同行业的开出的薪资分布有何区别?
如前所述,数据岗位在移动互联网、金融、电子商务和数据服务行业有着较高的需求,而行业与薪酬分布图则再次展示了这一情况。
不同融资阶段的企业给出的薪资分布有何差异?
初创型(天使轮)、初创型(未融资)和初创型(不需要融资)等企业发展初期和小规模状态下给数据人才开出的工资要明显低于其他融资阶段的企业开出的薪资水平。成熟型(D轮及以上)和上市公司则明显财大气粗,对数据人才也敢于挥金如土。
职位福利与数据技能要求的挖掘
笔者将job_temptation和job_JD这两个字段分别抽取出来各自读入R语言中,用jiebaR包进行分词处理,然后进行词频统计,再利用wordcloud2绘制词云图,向大家展示数据行业的企业能给求职者带来怎样的福利和软件技能要求。
数据岗位福利关键词词云图:
团队、五险一金、发展空间、弹性工作时间、期权等成为企业招聘数据人才的高频诱惑词语。
数据科学行业职位技能要求词云展示:
剔除了数据挖掘和数据分析等大频干扰词之后的词云图:
将上图转化为我们熟悉的条形图形式,技能要求一目了然。所以,当我们在谈论数据挖掘时,我们谈论的是如下内容。
Python、R、Hadoop、Java、Spark、C++、SQL、Linux、Hive等数据科学工具和编程语言是企业对数据人才的一致要求,一些如统计分析、数据结构以及决策树理论概念和算法也在企业对数据人才的要求之列,各位想找数据挖掘工作,可留点心呐!好好学理论,认真练技术,高薪不再远!(图中并没有R的频数,原因是笔者在分词的时候因R的单个字符难以与其他工具一起分词,故而这里没有出现R,实际上,R在JD中出现的频次有370次,仅次于Python,所以 R和Python是数据科学从业者两把利剑,愿各位好好打磨。)
#对爬取页数进行设定并创建数据框
job_city<-job_city[!/edvardHua/。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。
为大家提供与大数据相关的最新技术和资讯。
近期精彩文章(直接点击查看):
更多精彩文章,请在公众号后台点击“历史文章”查看,谢谢。