田利珠-揭秘“AI+数据分类分级”:如何成为数据安全的“神助攻”?
暂无数据
背景
2024年相继发布的《数据安全技术 数据分类分级规则》(GB/T 43697-2024)和《关于深化智慧城市发展 推进城市全域数字化转型的指导意见》等重要标准和指导意见,旨在贯彻落实《数据安全法》第二十一条提出的数据分类分级保护制度,为数据分类分级工作的落地提供重要指导依据。
为何分类分级工具需要AI助力?
面对日益增长的海量结构化和非结构化数据,传统分类分级工具面临如下挑战:
- 数据量大:传统工具需要人工编写识别规则并进行复核,耗时耗力,难以应对大量数据处理需求。
- 数据质量问题:真实环境的数据质量参差不齐,一些历史数据可能已经丧失价值,无法溯源。
- 数据动态变化:在动态环境下,仅依靠正则、关键字、数据字典匹配等传统方式,难以保障分类分级准确率。
为应对上述挑战,网御数据分类分级与风险合规系统(DSMP-CRCS)创新性引入AI模型,能够结合上下文自主、高效学习,并动态、智能地调整分类分级结果。具体应用如下:
1.基于AI模型的元数据管理
工具利用AI模型对自然语言的理解能力和处理能力,配合元数据表的上下文语境,完成对表中英文字段的自动中文注释翻译。同时,工具还兼具敏感数据识别功能,可增强对元数据的管理能力,解决元数据管理过程中存在的历史数据量大、质量参差不齐、人工推动效率低等问题。

2.基于AI模型的智能数据分类分级
工具采用大量AI模型算法,可有效弥补正则、关键字、数据字典识别能力的不足,提高数据准确率。

- 文本类数据的向量化分类模型
当面对无规则可循的文本数据时,用户只需创建识别模型,在线选择数据样本或上传少量离线样本即可自动化完成向量模型学习。模型学习完成后,出现新的识别任务时,只需通过相似度计算就能完成目标类型的识别与分类。
- 数值类数据的同分布检测模型
数值型数据很难用规则或语义模型去拟合,为此,工具引入基于统计方法的数据类型识别技术,例如,对身高、体重、薪资、话费等数值型数据,使用非参数双样本同分布检验方法,通过判断分布是否近似相等,来完成数值类数据识别。
- 文档主题提取、自动总结摘要生成
出于安全考虑,工具不会保存文档类文件的具体内容,因此无法直接查看原始文档。为便于数据稽核,工具集成文本主题提取算法模型,通过提取文档主题词来反映文档整体内容。此外,工具还利用基于Transformer架构的生成式摘要模型,通过阅读文本数据来学习单词和句子之间的关系,自动总结文档核心内容。
- NER命名实体识别
NER(Named Entity Recognition,命名实体识别)是自然语言处理(NLP)领域的一项重要能力,旨在更加准确地识别文本中具有特定意义的命名实体(具体事物的实体,如人名、地名、组织机构名、时间、日期、货币等)。
- OCR敏感图片识别
在真实场景中,会存在如身份证、截图等大量图片信息。因此,工具通过集成高可用、高精度的OCR模型进行图片的文本内容提取,并对提取内容进行数据识别,完成分类分级。
3.基于AI模型的分类分级结果主动学习与自纠错
数据是实时产生且动态变化的,需要持续进行分类分级工作,因此形成可复用的分类分级知识体系至关重要。与传统人工定义识别规则、人工复核识别敏感数据的方法相比,AI模型的持续学习能力具有显著优势。在初次完成新增字段的识别和分类分级后,需要人工复核分类分级结果,以保证自动化识别分类分级结果100%符合要求。在人工复核后,通过AI模型介入,即可主动、持续学习已复核的分类分级结果,形成可复用的知识。同时,模型能够判别出规则识别结果与模型分析结果冲突项、相同数据分析结果不一致项等,实现智能“纠错”,从而提升准确率。
分类分级工具的核心价值
1.高效智能分类分级,夯实底层能力
工具内置金融、医疗、电信、证券期货、能源等多个行业的通用数据分类分级规范共24个,能够快速识别行业共性数据。此外,通过结合AI模型的应用,工具还可根据后续业务的持续拓展和变更进行模型自动化、线上化调整,从而大幅提升企业内部数据分类分级效率及准确率,推动数据分类分级工作常态化,实现以智能数据分类分级结果为驱动的数据安全管控能力。

2.轻量级、免改造、一键部署、开箱即用
工具主打“轻量级、免改造”,用户可通过一键部署实现开箱即用。

3.更好地助力数据安全工作
数据分类分级是数据安全工作的重要组成部分,可为数据安全提供基础能力和安全建设指导依据。该工具具备数据资产盘点、数据自动分类分级、数据合规管理、风险管理等功能,高效助力数据分类分级,赋能数据安全建设。
网御数据分类分级与风险合规系统(DSMP-CRCS)利用AI模型的智能化分类分级技术,能够迅速、准确地对海量数据进行归类,显著降低人力工作量,极大提升工作效率。同时,该工具还可为企业提供更深入的数据洞察能力,更好地支持业务的数字化转型和企业创新发展。