美章网 资料文库 探析数据挖掘的大学生就业市场需求范文

探析数据挖掘的大学生就业市场需求范文

时间:2022-10-21 03:08:50

探析数据挖掘的大学生就业市场需求

摘要:“择业难”“就业难”已是大学生面临的两难问题。该文基于网络校园招聘,利用Python和SPSS工具需求视角分析就业现状。研究表明,热门职位集中在计算机、互联网,主要分布在北上广深城市,但“新一线”需求比例在上升,并且私营企业占比最大。另外,企业更看重大学生的基础能力、工作态度和品质。该研究为大学生就业、择业提供参考和借鉴。

关键词:就业指导;大学生招聘;数据挖掘;Python

1 背景

随着我国改革开放不断深化,高校教育模式也从精英转为大众教育,导致大学生就业压力日益增大。通过分析,人们发现“就业难”的影响因素之一就是“择业难”。由于企业和学生存在信息不对称问题[1],导致人才结构性化短缺。因此,本文用爬虫算法收集招聘网站信息,分析需求的热门区域、热门职业、热门职位的技能要求等。为高校和大学生解决“就业难”“择业难”的问题。

2 大学生招聘方式分析

企业针对大学生招聘通常会采用校园招聘或者网络招聘。校园招聘是专门针对应届大学生的招聘方式。目前,应届毕业生主要就业途径就是校园招聘,但是,艾瑞咨询在《中国校园招聘大学生洞察白皮书》中指出获得1~3家企业面试的学生比例近 40%,这说明应届毕业生虽然参与不少校园招聘,但成功获取Offer还是具有一定难度。网络招聘是以招聘平台为载体,企业在平台招聘信息,它可以将就业信息全方位地提供给学生[2],相较于传统的线下招聘,它更节约时间成本和空间成本。典型的招聘网站如“前程无忧”“智联招聘”等。网络招聘发展至今,已经积累了大量的职位信息,随着AI技术的日渐成熟,依靠网络就能够实现精准的职位推荐[3],对于促进大学生就业是十分有意义的。

3 企业招聘市场需求数据挖掘

3.1 数据获取

1)数据源的选择。招聘网站有很多,但是最有影响力的综合招聘网站非前程无忧(51job.com)莫属。前程无忧招聘网站上具有海量的招聘信息,覆盖的知名企业较多。所以本文选择从前程无忧招聘网站上获取职位信息。

2)Python爬虫获取数据。Python阅读简单,代码结构清晰、明了[4]。利用爬虫算法获取以下信息。①获取热门职位名单。前程无忧网有各类职位信息,职位名称众多,为了 Python 爬虫可以实现,我们需要先确定职位名称。由于前程无忧没有提供职位名称集合,我们选择从 BOSS 直聘首页获取职位名称。②获取热门职位信息。由于我们研究的市场需求是针对大学生就业,所以在爬取职位信息时,将工作年限参数设置为“在校生/应届生”。获取热门职位的爬虫代码如下:def count_page():"根据boss 直聘首页的职位名获取职位名称集合,再从前程无忧上获取热门职位"driver_path = r"D:\Chrome\Downloads\chromedriver.exe"file_name = r"D:\Python_code\Python程序\爬虫相关代码\51job\原始数据\数量.xlsx"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;x64) Apple Web Kit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}browser = webdriver.Chrome(executable_path=driver_path)url = []browser.get(url)html = browser.page_sourceselector = etree.HTML(html)job_names += selector. xpath("//div[@class= 'job-menu']//div[@class='menu-sub']//li/div[@class='text']/a/text()")name_nums = {}for name in job_names:browser = webdriver. Chrome(executable_path=driv⁃er_path)input_tag = browser.find_element_by_id("kwdselectid")input_tag.send_keys(name)input_tag.clear()click_tag = browser.find_element(By.LINK_TEXT, "搜索")click_tag.click()html = browser.page_sourcehtml = etree.HTML(html)job_url = html. xpath("//div[contains(@id, 'filter_work⁃year')]//li[2]/a/@href")web = requests.get(job_url, headers=headers)web.encoding = "gbk"dom = etree.HTML(web.text)page_nums = dom.xpath("//span[@class='td']/text()")[0]nums = page_nums.split(",")[0][1:-1]name_nums[name] = int(nums)browser.quit()names_nums = dict(sorted(name_nums.items(), key= lamb⁃da x: x[1], reverse=True))df_dic = {"岗位名": list(names_nums.keys()[:11]),"数量": list(names_nums.values()[:11])}end_df = pd.Data Frame(df_dic)end_df.to_excel(file_name, encoding="gbk",index=None)③爬取的结果。利用 Python 中的 requests 库获取职位信息,将其存入 EXCEL 表格,最后获取职位信息原始数据量为68197条。如图1所示。

3.2 数据预处理

由于网络爬虫获取的职位信息是杂乱、残缺的,还夹杂无意义字符,为此就需要进行预处理。首先,清理原始职位信息中重复、残缺的;然后,根据需要对清洗后部分字段数值化。

1)数据清洗。通过数据审查,进行数据清洗。

2)数据数值化。对清洗后的数据进行灰色关联度分析,对行业和公司类型进行主观分析,完成数值化处理。本文对工作地点进行数值化时,将北京、上海、广州和深圳归为一类,“新一线”城市归为一类,其余城市归为一类;公司规模原本是一段区间表示,现在用区间的中间数来表示公司规模。3.3 数据分析与挖掘数据挖掘技术可以对就业信息进行优化,更有针对性地就业指导[5]1)统计分析。根据研究需要,对相关字段进行词频统计,并将统计结果可视化。①热门职位统计。由于职位种类众多,本文运用职位列表页数来判断热度;②热门城市。利用经过清洗后的职位信息进行词频统计;③热门行业。与热门城市统计类似,唯一不同的是按行业分组;④工作描述。本文针对职位中的工作描述、职位要求进行的词频统计分析,以词云形式展示该职位求职者能力和技能要求;⑤其他统计分析。利用 Py⁃thon 对招聘组织类型进行归类,再分析市场中招聘组织的比例、各热门城市占行业的比例;利用SPSS计算各个行业的平均工资,计算得出平均工资最高的行业;分析热门职位的分布情况,职位主要集中在哪些区域;分析热门职位的薪资水平,计算各个热门的薪资情况等。2)灰色关联度分析。一个职位的薪资水平受多个因素的影响,本文选取工作地点、公司类型、公司规模和行业对薪资的影响四个维度,分析每个职位受这四个因素的影响程度。

4 招聘市场需求数据挖掘结果分析

4.1 本年度企业招聘市场总体情况

1)热门职位情况。如图 2 所示,根据热门职位统计结果。发现销售是市场需求量最大的职位,其后是数据分析和运营;但是与计算机、互联网相关技术的职位占据了热门职位的一半左右,表明市场对计算机互联网技术人才仍然有很大需求。

2)热门行业。热门行业统计可知,计算机软件和互联网的词频数遥遥领先,但是较为传统的行业,如房地产、金融贸易和教育行业,仍占有一定的比例。

3)热门城市。热门统计结果显示,北上广深“老牌”一线城市的职位需求量仍是最大,其后是成都、杭州、南京和武汉等属于“新一线”的城市。总之招聘需求主要集中在相对发达城市。

4)招聘组织类型。如图3所示,招聘组织中私营企业的需求最大,其次是国企,而政府机关和外企代表处的招聘需求是最小的。

5)热门城市行业发展情况。从统计结果可知,需求最大的三个行业是互联网、网络游戏和计算机软件,总份额占百分之五十;而需求的角度判断行业的发展,毫无疑问在广州发展情况最好。

6)行业平均薪资。统计可知,薪资前十行业中,平均薪资最高的是银行,其次是金融、房地产和学术,出乎预料的是招聘需求大的互联网行业的平均薪资并不高。

4.2 具体岗位分析结果以Java技术岗位为例。

1)职位描述词云。以Java岗位为例,对大学生有三方面要求,即技术能力、编程素养和个人品质方面的要求。如图 4所示。

2)职位城市分布。可以看到 Java 职位数量最多的省份是广东,而从整体上看,Java职位分布在广东、上海和浙江等中国的东南区域。职位分布符合地区整体经济发展水平。

3)薪资分布区间。Java 技术岗的薪资主要集中在 2000-8000,其次是 8000-14000,而高于 14000 的 Java 岗位还是占少数。但整体情况是高于全国毕业生的平均工资的。

4)薪资的影响因素分析。根据统计结果发现,公司类型与薪资的关联度最高,其次是公司规模,出乎预料的是工作地点与薪资的关联度较低。总之,公司类型的选择对薪资影响最大,而城市对薪资影响反而不大。

4.3 大学生择业对策建议

对高校而言,要加大对互联网技术人才培养的力度,强化学生专业技术训练;同时,高校还应该培养学生完整的知识体系,让学生成为具有专业技能与通识能力的复合型人才。对学生而言,在做职业规划时要了解市场,在将来工作的行业、城市和薪资都有整体规划;同时,对于有能力、有愿望的非计算机专业学生,可以自学计算机技术;最后,学生要对自己有正确认知,不要盲目从。

参考文献:

[1] 郜双,罗庆玲.企业招聘中的信息不对称问题分析及对策[J].现代商业,2019(11):54-56.

[2] 赵婷婷,陈敏 . 智慧就业服务模式在高校大学生就业中的应用[J].科教导刊(上旬刊),2019(22):163-164.

[3] 董春辉 . 用好大数据实现大学生就业“私人订制”[J]. 人民论坛,2020(4):116-117.

[4] 杨荣领.《Python语言程序设计基础》课程教学改革实践[J].高教学刊,2019(3):135-137.

[5] 王硕鹏.基于数据挖掘的毕业生就业信息管理决策模型研究[J].东北电力大学学报,2019,39(5):86-90.

作者:胡鹏 李长云 傅荣鑫 单位:哈尔滨理工大学

被举报文档标题:探析数据挖掘的大学生就业市场需求

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)