北京2020年12月29日讯 -- 近日,北森获得国家知识产权局授权的AI简历解析相关技术发明专利 -- “一种基于深度学习的简历解析方法和系统”。该项专利技术由北森成都总部相关团队研发,专利期限为20年,将被用于招聘场景下大规模、多类别、复杂简历的智能化解析。
本次申请的是北森简历解析的核心技术专利。无论是招聘网站的固定格式简历,还是候选人邮箱投递的表格式、自由格式简历,甚至是移动端拍照上传的图片简历,该技术可以从任意格式的半结构化文档简历中,提取候选人的个人信息、工作经历、教育背景等字段信息,以支持后续搜索、筛选、智能推荐等工作展开。
相比于目前市面上常见的简历解析技术,北森实现两大突破。
其一,字段提取方法上,使用独立的语句切分+文本分类模型替换序列标注。
同类的其他技术在提取字段信息时,是通过序列标注模型来识别目标实体的起止位置和类别,这种方式会增加任务的训练难度,对训练数据也有更高要求。
北森则利用“半结构化简历的布局通常更明晰,字段之间会以空格、冒号等隔开”的特点,将字段的提取分为语句切分和字段类别识别两个阶段任务分别建模实现。相比于以往,该方法可以提取长文本字段,让起止位置的识别更准确,并且能够支持上百种类别识别。
其二,使用句子粒度的区块和分条模型替换词粒度的分类器。
在从简历中确定个人信息、教育经历、工作经历等区块的位置时,同类技术最好的方法是以词为粒度,每行文本独立地通过文本分类模型得到区块类别。但是这种技术在遇到相似的信息时,比如相似的实习经历或工作经历,容易出现判别错误。
实际上,通过大量分析简历发现,简历的每行内容属于哪个区块是有一定相关性的,即当前行属于哪个区块会受到上一行和下一行内容的影响。所以,北森提出区块和条目识别模型的序列标注,以句子为单位进行输入,且包括类别信息,可以在建模过程中直接捕获到前后几行对当前行的影响,大大提升准确率。
从最原始的模板解析到现在基于深度学习的智能简历解析,北森简历解析经历了四大发展阶段,每一次重构都是重大突破。目前简历解析涉及从文档读取、布局识别、字段识别等方方面面,而北森将持续探索简历解析技术的研发与落地,为行业带来更优体验。
“基于深度学习的简历解析方法和系统”将进一步在北森的招聘产品及服务中进行应用。通过在内容提取、类别识别等各个方面的优化,相关产品将创新性推出更准确、更全面的简历字段解析体验;同时,北森会针对渠道简历、猎头推荐简历等样式较固定的简历提供了解析配置,遇到个别字段解析出现问题可以快速响应,快速兼容,影响小上线快,给客户更好的技术支持体验。