简历解析器:是趋势还是事实?

发布日期: 9/23/2020, 4:54:14 AM

阅读量: 3692723

倍罗干货

招聘人员长期以来一直在手动筛选简历。他们通读每位候选人的简历,并根据技能,知识,能力和其他期望因素进行评估。但是,招聘人员要花很长时间才能详细浏览每份简历。因此,在现实世界中,招聘人员被迫做以下两件事之一:他们通过有限的简历,对其进行彻底扫描,然后从中挑选出来。他们遍历所有(或大部分),花最少的时间对其进行审核(有些要求低至6秒),然后选择可以钩住他们的任何简历。在这两种情况下,组织都失去了优质的候选人,招聘人员浪费了时间和精力。那么,如何才能避免呢?这是简历解析器出现的地方。

text

什么是简历解析?

从形式上讲,简历解析是将自由格式的简历/简历文档转换为结构化信息-适用于计算机的存储,报告和操作。

简历解析器分析简历,提取所需信息,然后将信息插入数据库,每个候选人都有唯一的条目。一旦对简历进行了分析,招聘人员就可以在数据库中搜索关键字和短语,并获取相关候选人的列表。

那么,为什么简历解析困难?

几乎每个人都试图使用独特的模板在自己的简历中放置信息,以便脱颖而出。对于人类来说,阅读这些简历或求职广告是一件容易的事。这些半结构化文档通常分为几部分,并具有易于快速识别重要信息的布局。

相反,对于计算机而言,随着格式的每次更改,提取信息的任务都变得很困难。一般来说,这里是市场上可用的几种简历解析器:

  • 基于关键字的简历解析器:基于关键字的简历解析器通过识别CV / Resume文本中的单词,短语和简单模式,然后将简单的启发式算法应用于在这些单词周围找到的文本来工作。

  • 基于语法的简历解析器:基于语法的简历解析器包含大量语法规则,这些规则旨在理解CV /简历中每个单词的上下文。这些相同的语法还将单词和短语组合在一起以构成复杂的结构,以捕获简历中每个句子的含义。

  • 统计解析器:这种类型的解析器尝试应用文本的数值模型来识别CV /简历中的结构。像基于语法的解析器一样,它们可以区分同一单词或短语的不同上下文,还可以捕获各种各样的结构,例如地址,时间轴等。

在不深入探讨它们各自的优点和局限性的情况下,让我们谈谈底线准确性。大多数简历解析器使用上述任何一种技术在现实世界中提供接近60%的准确结果。但是,与人类96%的准确度相比,它们绝对是落后的。

消除招聘偏见

有很多写日期的方法,每个月都会出现许多职位和技能。某人的名字可以是公司名称(例如Harvey Nash),甚至可以是IT技能(例如Cassandra)。CV解析器解决此问题的唯一方法是“理解”单词出现的上下文及其之间的关系。这就是为什么基于规则的解析器将很快遇到两个主要限制的原因:

1)规则将变得非常复杂,无法解释例外情况和歧义,并且

** 2)覆盖范围将受到限制。**

那么,如何解决简历解析问题呢?

基于ML的简历解析

恢复解析的问题可以分为两个主要的子问题

-1.文本提取和2.信息提取。最新的简历解析器需要以尽可能最高的精度解决这两个问题。

基于ML的简历解析如何工作?

1.文本提取

任何旨在成为其最新技术的解析器都需要探索几种库,例如pdf,doc,docx等。但是,单一类型的算法不足以提取所有这些文档格式。

一种新的分类系统是根据简历模板将简历分类为不同类型,然后分别处理每种类型的方法。其中一些类型很简单,但是大多数(例如包含表,分区等的类型)需要软件的高阶智能。对于此类复杂类型,光学字符识别(OCR)和顶部的Deep NLP算法可以帮助提取所需的文本。

对于每个问题,都有困难的方法和明智的方法。OCR是一个非常普遍的问题,已经由世界上最大的科技公司研究和解决。大多数技术也是开源的!因此,与其从零开始为OCR和NLP建立深度学习模型,聪明的方法是利用开源的力量并为任务配置现成的模型。

在分类算法的帮助下,简历得以分离,一些现代玩家已经能够融合不同的技术并获得最好的成绩,从而构建出高度准确和快速的文本提取方法。

2.信息提取

典型的简历可以视为与个人的经验,教育背景,技能和个人详细信息有关的信息的集合。这些细节可以以各种方式呈现,或者根本不呈现。

跟上简历中使用的词汇是一个巨大的挑战。简历由公司名称,机构,学位等组成,可以用几种方式书写。例如。Skillate :: Skillate.com —这两个词都指同一公司,但是被机器视为不同的词。而且,每天都有新的公司和机构名称出现,因此几乎不可能保持软件词汇表的更新。

考虑以下两个语句:

“目前在担任数据科学家”和 “为客户Amazon工作过的项目”

在第一条声明中,“ Amazon”将被标记为公司,因为该声明是关于在组织中工作的。 但是,后者“亚马逊”应该被视为一个普通词汇,而不是一家公司。显然,根据用法,同一单词可能具有不同的含义。

解决方案

上述挑战清楚地表明,像朴素贝叶斯这样的统计方法在这里注定会失败,因为它们的词汇严重阻碍了它们的发展,并且无法解释单词的不同含义。那么可以解决这个看似困难的问题吗?深度学习可以为我们完成所有艰苦的工作!这种方法称为深度信息提取。

对所面临挑战的透彻分析表明,问题的根源在于理解单词的上下文。

考虑下面的陈述 “ 2000–2008:摩尔多瓦大学统计学教授”

您很可能不会理解上述陈述中所有单词的含义,但是即使您不理解这些单词的确切含义,您也可能会猜到,由于“教授”是一个职位,“ Stat din din摩尔多瓦大学”很可能是组织的名称。

现在再考虑一个示例,其中有两个陈述: “ 2000–2008:坎普IIT教授”

IIT坎普尔大学计算机科学学士学位

在这里,IIT Kanpur在前一个声明中应被视为雇主组织,而在后一个声明中应被视为教育机构。在这里,我们可以通过观察上下文来区分“ IIT Kanpur”的两种含义。第一个陈述具有“ Professor”(职业)名称,即职务,表明IIT Kanpur被视为专业组织。第二个有学位和专业,提到IIT坎普尔被标记为教育组织。 应用深度学习解决信息提取问题极大地帮助我们有效地建立了简历中每个单词的上下文模型。

具体来说,命名实体识别(NER)是可以应用深度学习的算法,用于简历中的信息提取。

“ NER是信息提取的子任务,该任务旨在根据上下文将非结构化文本中的命名实体提及定位和分类为预定义类别,例如人员姓名,组织,位置等。”

通过上面提到的示例,应该清楚的是NER是一个非常特定于域的问题,因此需要从头开始构建深度学习模型。

建立深度学习模型

为了从头开始构建模型,第一步是确定模型架构。有关NLP的研究论文和其他文献表明,在模型中使用LSTM(一种神经网络),因为它考虑了语句中单词的上下文。一旦就整个架构达成共识,就需要着手为模型训练和评估选择数据集。此步骤是最繁琐的过程,需要从很早的阶段就开始考虑。

要考虑的最重要的事情之一是在其上训练系统的数据。数据需要不加标签,并且不应引起更多歧义。可以帮助团队中的手动注释工作协作的联机工具也有很大帮助。

较短数据集上的小型POC应该是成功的早期途径。结果开始显示后,数据标记和系统的进一步培训即可提供所需的结果。

数据标记的任务通常被认为是微不足道的,但它实际上使人们能够深入了解模型的性能,这是任何研究论文都无法做到的。以下是NER模型结果的摘录。它显示了该模型如何能够识别和区分“ IIT Kanpur”一词在不同上下文中的不同含义。每个单词都有一个对应的标签。

基于AI的简历解析的好处

文件格式图标处理各种文件格式: “基于AI的简历解析器可以处理所有流行的文件类型,包括PDF,DOC,DOCX,ZIP,使候选人可以自由地以任何格式上传简历。”

文件格式图标解密复杂的简历: “基于AI的解析器可以识别并提取不同格式的信息。例如:表格模板,图像扫描等。”

文件格式图标机器学习可提高准确性: “光学字符识别(OCR)和Deep NLP算法可从简历中提取文本。”

文件格式图标闪电般的处理: “具有AI功能的解析器需要1-3秒来处理最复杂的简历。”

文件格式图标简历质量得分: “索引根据其与AI支持的得分的血统书而恢复,而与工作概况无关。”

关于Bello 智能简历解析器

Skillate是先进的决策引擎,可以使招聘变得轻松,快速和透明。该产品可帮助优化招聘的整个价值链,从创建工作申请,恢复匹配到候选人参与。

text

AI招聘助手申请试用 AI招聘助手申请试用