人工智能帮助我们解决了以前被认为无法解决或在计算上过于昂贵的问题。人工智能技术目前正在中断招聘或人才招募。在此领域中,这种“难以破解”的问题是“继续解析”问题,如果能够精确解决,则可以大大节省招聘人员执行重复性繁琐的手动筛选简历任务的时间。

您如何构建简历解析器?

我们花了大约一年半的时间来开发出最新的简历解析器,即使在最复杂的简历上(测试了数千个简历之后),其准确性也达到了90%以上。您可能已经猜到了,要以如此高的精度解决这个问题,就需要我们利用AI中最先进的深度学习技术的力量。在本文中,我们将分享构建此人工智能软件时获得的知识和经验。

从形式上讲,简历解析是将自由格式的简历/简历文档转换为结构化信息-适用于计算机的存储,报告和操作。

简历解析器如何工作?

恢复解析的问题可以分为两个主要的子问题-1.文本提取和2.信息提取。为了构建SoTA简历解析器,这两个问题都需要以尽可能最高的精度解决。在这篇文章中,我们将讨论文本提取,而在接下来的文章中将讨论信息提取。

简历解析器面临的挑战

几乎每个人都试图使用唯一的模板在自己的简历上放置信息。即使是在人眼看来似乎无法区分的模板,也会由计算机进行不同的处理。这创造了成千上万的模板在其中写入简历的可能性。并非所有模板都易于读取。例如。可以在履历表中找到表格,图形,列,每个这样的实体都需要以不同的方式读取。因此,很容易得出结论,基于规则的解析器是没有机会的,需要一种智能算法以有意义的方式从原始文档(pdf,doc,docx等)中提取文本。

建立简历解析器的方法

我们探索了几个库来从pdf,doc,docx等类型的文档中提取文本,但是没有一个库能够提供我们想要达到的结果质量。显而易见的是,文本提取不能仅靠一种算法来解决。

因此,我们首先创建了一个全新的分类系统,根据简历模板将简历分为不同的类型,并分别处理每种类型。其中一些类型很简单,但是大多数(例如包含表,分区等的类型)需要软件的高阶智能。对于此类复杂类型,我们决定采用 NLP算法来提取文本。

对于每个问题,都有困难的解决方法和聪明的解决方法,因此我们决定采用后者。最棒的是,该技术也已经开源。因此,在这种情况下,困难的方法是从头开始为NLP构建深度学习模型,而明智的方法是利用开源的力量并为任务部署现成的模型。

结论

借助我们的分类算法来分离简历,我们能够合并各种技术并获得最佳结果,从而构建了一种高度准确且快速的文本提取方法。目前,我们能够从大约98%的简单简历和90%的复杂简历中准确提取文本。

text