基于正则推断的数据格式规则生成方法

作者: 时间:2024-02-29 点击数:

摘要:为解决手工制定数据质量规则费时费力且容易出错的问题,基于正则推断理论,研究从正样本推断自动生成数据格式规则的方法,提出多尺度样本增强、循环模式和公共子序列抽取的样例泛化策略,构造格式规则候选空间,证明多尺度样本增强的合理性,分析公共子序列对格式规则质量的影响;基于编码成本构造目标函数,利用整数规划方法对候选规则的组合优化问题建模,推荐较优数据质量规则给数据治理者。真实数据集和模拟数据集实验结果表明:该方法生成的规则质量比同类方法平均提高70%,验证算法的可行性和有效性。该方法可以提升制定和管理数据格式规则的效率。

基金资助:东北石油大学特色领域团队专项(2022TSTD-03);

  • 专辑:

    工程科技Ⅰ辑;信息科技

  • 专题:

    计算机软件及计算机应用

  • 分类号:

    TP311.13

2019 版权所有©东北石油大学 | 地址:黑龙江省大庆市高新技术产业开发区学府街99号 | 邮政编码:163318

信息维护:学报 | 技术支持:现代教育技术中心

网站访问量: