用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 文化 | 社会
相关文章    
您现在的位置: 历史千年 >> 文化 >> 文化研究 >> 正文
六爻应用于现代天气预测…
五行理论应用于四季保养…
易经智慧用于企业管理,…
易经用于股市启悟
易经用于策划市场的分析
易经用于管理的的思路
图说文化:100个中文姓…
中国神话百年反思之三:…
关于跨文化传播中文本意…
关于中国古代文论的体系…
最新热门    
 
用于中文信息自动分类的《中图法》知识库的构建

时间:2009-8-8 16:46:56  来源:不详
分类号和词串同时出现在一条记录中的概率;可用分类号和词串的共现频次freg_gx表示。
    一般认为,支持度≥2表示该分类号与词串有概念上的对应关系,即有两人次以上认可这种对应关系。支持度越大,表示这两者之间概念对应关系成立的可能性越大。
    而置信度则表示在出现该分类号的前提下出现该词串的概率。
    置信度Conf(clckeyword)=P(clc,keyword)/P(keyword)=Freq_gx/freq_keyword
    其中:P(clc, keyword)表示在原始库中分类号和词串同时出现在一条记录中的频度,即分类号和词串的共现频次freq_gx;
    P(keyword)表示该词串在整个原始库中出现的概率,可用该词串在整个原始库中出现的频次freq_keyword表示。
    同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。当某一分类号和词串之间的支持度和置信度分别超过设定的阈值,则认为两者之间有很强的关联,即概念上的对应关系,以此来建立类号与词串的概念对应关系。
    第二,通过相关度度量解决分类号与词串的多对一和多对多关系。在原始库中分类号与词串之间是一对多、多对一、多对多的关系,为给每一个词串确定一个惟一的分类号,需要度量分类号与词串之间的相关度。测量分类号与词串相关性的方法有多种,如信息对数量度法(IM)、极大似然法(LogL)、Dice测度等。我们基本采用Dice测度来计算词串对应的最佳类号。
    其中:Dice表示分类号与词串的并发概率,从而确定两者之间的关联度;
    P(clc)表示该分类号在整个原始库中出现的概率,可用其在原始库中出现的频次freq_clc表示;
    P(keyword)表示该词串在整个原始库中出现的概率,可用其在原始库中出现的频次freq_keyword表示;
    P(clc, keyword)表示该分类号和词串在整个原始库同时出现的概率,可用其共现频次freq_gx表示。
    在一个词串对应多个分类号的情况下,Dice值最大的记录表示该记录对应的分类号是该词串对应的最佳类号。
   第三,构建义类词典进行词相似度的计算。主题标引从关键词转向正式主题词、自动分类中词串相似度匹配以及概念检索都离不开同义词的识别,因此需要在《同义词词林》[7] 的基础上构造一个义类词典,通过语义编码从概念上识别同义词,而不是简单地通过字面相似识别同义词,是提高系统性能的关键之一。
    《同义词词林》是一部按词汇语义分类的汉语词典,共14个大类、94个中类、1428个小类,以树型结构来表示词的语义关系。以它为基础,经过适当调整和编码,就可以构造出一部义类词典。《同义词词林》以单元词为主,其中大多可以作为构成复合词的词素。用它构建的义类词典一方面可以直接识别以单元词形式出现的同义词,另一方面以它作为语义工具,可以挖掘出以复合词形式出现的同义词和同义词组。
    构造义类词典时,首先要将词汇的字面形式按其构成词素分解转换成语义代码,以《同义词词林》分类体系作为语义编码体系。
    [语义编码]=〉(大类)(中类)(小类)(小组)
    其中:大类=〉(大写英文字母);
    中类=〉(大写英文字母)(小写英文字母);
    小类=〉(大写英文字母)(小写英文字母)(数字)(数字);
    小组=〉(大写英文字母)(小写英文字母)(数字)(数字)(数字)。
    如:“商业”的语义编码为[Dil80203],其对应的大类、中类、小类、小组的编号分别为(D)、(Di)、(Di1802)、(Dil80203),其中“D”表示大类“抽象事物”,“Di”表示中类“社会政法”,Dil802“表示小类Di18“事业行业工程”下的词群“行业”,“Di180203”则表示小组“商业”。
    有了义类词典,就可以对待识别的语词进行语义分析,把所有的词素归入相应的语义体系的结点之中,然后计算两个语词之间的语义距离,从而识别同义词和准同义词,实现从关键词向主题词的转换,并计算两个词串的相似度实现分类算法。

        5、《中图法》知识库的使用

    知识库以《中图法》为框架,以人工标引经验为基础,通过分类检索语言、主题检索语言、自然语言之间的兼容互换原理,建立分类号—主题词串—关键词串之间的对应关系,包含了丰富的词汇、大量的同义关系以及词串与类号的对应关系,能够广泛地应用于中文文献信息的自动标引、自动分类(归类),甚至概念检索上。目前,本系统已经比较成功地应用于网页和期刊论文的自动标引和自动分类[8],图书也在试验之中。
    (1)利用抽词词典和停用词表进行分词,并借助于同义词表进行主题规范,实现中文信息的主题自动标引。
    选择文献标引源,如题名、文摘、作者关键词、正文、参考文献等,利用抽词词典和停用词表采用最大正向匹配算法进行分词,统计词频、词数、位置权重进行排序输出标引词串,再结合同义词表进行主题规范,给出正式主题词。
    (2)借助分类号—关键词串对应表、同义词表,以及地名表、时代表、 文献类型表实现中文文献信息的自动分类。
    本文说的自动分类是一种词串定类和概念定类,是一种基于实例的自动分类方法。首先,它是词串定类,而不是单词定类,提高了分类的正确性。其次,它是概念定类,在标引词串与分类知识库中词串进行匹配时,先进行字面相似度的计算,对于未能给出类号的记录再利用同义词表和义类词典进行语义相似度的计算,从而在兼顾正确性和速度的前提下,给出最佳的《中图法》主类号。第三,它是一种基于实例(即标引经验)的分类方法,分类知识库中的每一条记录都是一个标引实例,与其相匹配可确定其分类结果。第四,采用地名表、时代表、文献类型表对标引词串中的地名、时代、文献类型等分面归类,以改进《中图法》类目体系在自动分类上的弊端。
    (3)在自动标引和自动分类结果的基础上,结合同义词表, 实现中文文献信息的概念检索和多途径检索。
    从标引的角度看,本系统给出的主题标引结果包括了关键词串和主题词串两个部分。用户一方面可以从关键词和主题词两个途径进行检索,另一方面能够实现词串检索而不仅仅是单个词的检索;此外还可以结合同义词表增加检索入口以及利用义类词典实现概念检索,从而提高检索效率。从分类角度看,分类结果包括了主类号以及地名、时代、文献类型等各个组面的复分号,用户可以从主题、地名、时代、文献类型等多个途径来进行文献信息的分类检索。

        6、结语

    《中图法》知识库是一个以《中图法》为主干而构建的知识组织系统,采用了中文文献数据库中存在的丰富的类号与词串的双重标引数据,具有良好的文献保障和用户保障基础。它将情报语言学的方法与计算语言学的方法结合起来,通过对大规模语料库的统计分析,利用计算机进行自动编制,克服了手工编制分类号—主题词对应表过程中产生的种种弊端。它基于《中图法》,却又比《中图法》具有更广泛的功能。它拥有丰富的词汇和语义关系,是一种基于概念语义网络的标引和检索用知识组织系统。
    但是,它尚存在一些需要进一步解决的问题:
    (1)知识库的完备性。《中图法》的固定类目是有限的, 但是组配类目及其对应的词串则无法穷举。
    (2)知识库的及时更新。包括及时添加新类、新词,未登录词的发现是一个亟待解决的问题;同时还要考虑陈旧类目和语词的淘汰问题,否则知识库过于臃肿会影响系统的性能。
    (3)目前自动标引和分类使用的算法智能化程度仍不高, 需要引入本体和主题图的一些技术以增加知识库的推理功能,改进知识库的性能。
    (4)引入超链接、标记语言、互操作等技术,使知识库由静态走向动态, 由线性走向网状,使知识库逐渐更新换代。

【参考文献】
    [1] 曾蕾.网络环境下的知识组织系统.现代图书情报技术,2004(1)
    [2] 张琪玉.关键词检索、 概念检索与分类浏览检索一体化.巨灵研究报告,2003—03
    [3] 侯汉清,李波,戴晶萍.计算机建立分类法和主题词表转换系统的尝试.江苏高等学校图书馆学报,1999(4)
    [4] 侯汉清.建立以《中国分类主题词表》为核心的检索语言兼容体系.见:21世纪高校图书馆的新使命——庆祝北京大学建校100周年国际研讨会论文集.北京:北京大学出版社,1998
    [5] 侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建.情报学报,2003,22(6).
    [6] 章成志.基于文本层次模型的Web概念挖掘研究——基于概念语义网络的自动标引和自动分类研究.见:南京农业大学硕士毕业论文,2002
    [7] 梅家驹等.同义词词林.上海:上海辞书出版社,1983
    [8] 侯汉清,薛鹏军.基于知识库的网页自动标引和自动分类系统.大学图书馆学报,2004,22(1)

上一页  [1] [2] 

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2009 © www.lsqn.cn All rights reserved
历史千年 版权所有