导 语
2023年11月2日,在“第2届电力行业数字化转型大会暨第4届电力人工智能大会”上,「智创奖」第二届电力数智化转型技术创新应用评选颁奖典礼同期举行。
国网山西省电力公司信息通信分公司凭借其“基于人工智能的人员安全准入智能分析与预警”案例,获得“新型电力系统人工智能技术创新应用案例奖”。
该案例通过对基于人工智能的人员安全准入智能分析与预警模型研发工作,借助非结构化平台+人工智能解析能力,实现证照类数据智能识别,关键信息自动校验,将企业与队伍人员资质校核时间,由平均30分/1人次,降低至平均10分钟/1人次,极大降低人工成本,智能核查所需时长同比缩短70%,严厉打击证件造假、过期等不合格问题。本次成果的人工智能模型可以进行全网推广。
其搭建可分为以下几个步骤:
# 01、OCR识别模型构建
基于企业与人员安全准入图像类数据特征,结合企业中台能力,完成图像数据统一接入与数据处理,完成OCR识别模型构建。
通过非结构化平台统一纳管作业人员信息、作业人员资质、企业信息、企业资信数据,如营业执照、安全生产许可证、身份证等证照类数据,并存储于对象存储oss/obs,形成样本数据。对图片数据进行切分形成训练集以及验证集,并使用labelimg、labelme等标注技术对图片进行标注,形成训练集标注和验证集标注数据。
OCR识别模型构建,基于企业与人员安全准入图像类数据特征的识别模型由三大模块组成,分别是图像分类模块、文本检测模块、智能纠错模块。、
1.图像分类模块:
图像分类模块用于快速识别输入图像所属的具体子分类,如:营业执照、身份证、文本扫描件等。后续OCR识别引擎将通过本模块的分类结果,匹配OCR识别的模版,实现证照类信息定制化识别。
本模块采用深度学习技术,通过构建图像分类模型,采用特殊目标检测技术(如:检测身份证中对国徽、人脸图像)对图像进行快速分类。采用paddlex作为本模块图像分类、目标检测训练框架,结合FasterRCNN深度学习算法,交叉验证,提高分类结果的准确性。
2.文本检测模块:
由于实际的图像数据大多来自于扫描件、复印件,图像质量差(存在模糊、循转、褶皱等各种实际问题),且各种图像分类的数据本身也存在较大差异,主流、公开的预训练模型难以在各种分类的图像上取得较好的效果。因此,有必要针对证件图像数据训练定制化的文本检测模块。
对图像数据进行处理,根据标注数据生成数据集,并按照比例7:2:1拆分为训练数据集、测试数据集、评估数据集,进行模块训练,采用评估数据集进行评估。根据评估的结果,通过增加数据标注、调整数据标注、调整模型参数等方式,重复整个训练过程,直至OCR文本检测模块具有高准确率。
3.智能纠错模块
通过分析各种证件类型涉及到的字段信息特征,结合规则引擎,构建校验规则,形成特征库。
对OCR识别的结果,将自动匹配模版信息、特征库进行校验,自动识别出有误的字段信息并进行纠错,OCR整体准确识别率由98.3%提升至99.5%。如:身份证中的“民族”应在合理的取值范围内,如“汉族”,“壮族”; 营业执照中的“成立日期”应为可解析的日期类型;统一社会信用代码应为18位阿拉伯数字或大写英文字母组成的字符串等。
# 02 企业与人员安全准入智能分析与预警模型研发
通过OCR对企业与人员准入资质证明材料进行识别后,依据安监部企业与人员安全准入要求,人工构建规则库,完成企业与人员安全准入智能分析与预警模型研发,对身份证信息一致性、营业执照与系统数据一致性、企业与人员资质证书或材料等是否满足准入要求的自动判断。
企业与人员准入管控智能化新模式在山西电力的成功落地运用,真正做到安全资信从源头把控,严把“双准入”关,实现企业与人员安全管控能力的系统化提升,将为解决企业与人员的一系列安全管理难点提供强有力的支撑,进一步促进安全管控实现智能化、规范化、常态化,为推进企业安全生产主体责任落实奠定了坚实基础,也为电网安全生产工作提档升级树立卓越标杆,后续将在全网进行推广试用。
参与单位/参与人员:
国网山西省电力信息通信分公司/刘兵兵、薛泓林、谷良、张家玮、白建海、宫鑫、刘秀、安龙、韩蕊娜、刘泽坤
公司简介:
上海共燊信息科技有限公司成立于2016年,是第2届电力行业数字化转型大会暨第4届电力人工智能大会的承办方之一,公司承接设计、制作各类广告,会务服务,展览展示服务,企业形象策划,市场营销策划,公关活动策划,文化艺术交流活动策划,商务信息咨询,市场信息咨询与调查等。
关注官方公众微信号