作者:程显林;王敬山;韩冬;姜建国; 时间:2008-01-01 点击数:
程显林;王敬山;韩冬;姜建国;
1:大庆职业学院计算机系
2:大庆石油学院机械科学与工程学院
3:大庆石油学院电气信息工程学院
摘要(Abstract):
为自动从网页中抽取所需科技信息,根据两类知识:一类描绘网页本身的特点及识别各网页信息对象的确定模式知识;另一类描述网页信息记录块及各网页信息对象的非确定模式知识,提出一种基于知识库的信息抽取方法,给出初步实现的可以运行的原型系统.该系统依据前一类知识,经过动态分析,获得后一类知识,然后利用这2类知识自动完成从信息内容类似,但其表现形式各异的网页中抽取所需的科技信息.应用结果表明:实验网页论文信息被成功提取.
关键词(KeyWords):Internet;信息抽取;半结构化数据;抽取器
Abstract:
Keywords:
基金项目(Foundation):大庆市科技攻关项目(SGG2007038)
作者(Author):程显林;王敬山;韩冬;姜建国;
Email:
参考文献(References):
[1]张绍华,徐林昊,杨文柱,等.基于样板实例的Web信息抽取[J].河北大学学报:自然科学版,2001,21(4):431-437.
[2]SEYMORE K,MCCALLUM A,ROSENFEL R.Learning hidden Markov model structure for information extraction[C]∥Pro-ceed-ings of the AAAI-99Workshop on Machine Learning for Information Extraction.Orlando,1999:37-42.
[3]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510.
[4]BERGER A,PIETRAS,PIETRA V.A maximumentropy approachto natural language processing[J].Computational Languis-tics,1996,22(1):39-71.
[5]林亚平,刘云中,周顺先,等.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240.
[6]肖基毅,朱道辉,邹腊梅.基于混合条件模型的Web信息抽取[J].郑州大学学报:理学版,2008,40(3):52-55.
[7]朱明,黄云,蔡庆生.基于多知识的Web网页信息抽取方法[J].小型微型计算机系统,2001,22(9):1058-1061.
2019 版权所有©东北石油大学 | 地址:黑龙江省大庆市高新技术产业开发区学府街99号 | 邮政编码:163318
信息维护:学报 | 技术支持:现代教育技术中心
网站访问量: