用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 文化 | 社会
相关文章    
您现在的位置: 历史千年 >> 文化 >> 文化研究 >> 正文
汉语是世界最先进的语言
我的汉语系统改革意见
试论古代汉语中的“谓语…
能指盛宴年代的汉语文学
“超隐喻”:“汉语”之…
隔在中西之间的日本——…
中国当代藏族作家汉语创…
用于中文信息自动分类的…
汉语俗语与汉民族的本土…
论现代汉语方位词的定义…
最新热门    
 
汉语自动分词与内容分析法研究

时间:2009-8-8 16:47:09  来源:不详
词词频分析法、指示词词频分析法和关键词词频分析法等[42]。而汉语自动分词是词频统计分析法的基础,汉语自动分词的精度决定了词频统计的准确度。只有首先对文本文献进行有效切分之后,才能对文献中的词或词组进行准确的统计,然后再对统计结果进行分析,对文献中隐含的信息和知识进行有效挖掘。由于汉语自动分词研究一度进展十分缓慢,使得词频统计分析法在相当长的时间内还存在着一些问题。但近些年来,由于计算机技术应用于内容分析领域以及汉语自动分词研究的突破性进展,对内容分析法产生了根本性影响。以汉语自动分词研究为基础的信息检索系统(如书目数据库、文摘数据库、全文数据库和搜索引擎等)的发展以及数据挖掘和知识发现技术的应用,为内容分析方法研究提供了便利的条件,带来了蓬勃的生机[43~45]。所以说,汉语自动分词研究是内容分析法的前提和基础,特别是在利用计算机技术辅助内容分析法方面,汉语自动分词研究对内容分析技术与方法具有重大的影响。
    4.2 汉语自动分词研究对内容分析法应用的影响
    内容分析法应用相当广泛。由于科学技术发展的突飞猛进,信息知识社会的到来,当今世界的“信息过剩、信息富余”、“知识爆炸”给人们学习、工作和生活带来了沉重的压力,怎样才能在浩如烟海的文献和知识信息中找到自己需要的文献和知识信息,已经变得越来越重要。而内容分析法正是解决这一问题的有效方法,它借助于计算机对各个学科领域中海量的文献、信息和知识进行统计分析,找出其关键信息和核心内容,以供人们利用,从而提高管理水平和决策效率。因而,内容分析法受到了各个学科领域的热烈欢迎。
    目前内容分析法主要在计算机和人工智能领域、图书情报领域、政治与军事领域、科技与经济领域、新闻与传播领域、社会学研究和心理学研究等研究领域的分析与预测中应用得非常普遍。计算机和人工智能领域研究内容分析法,注重于研究对象内容的自动分析、提炼和表达,因此,其主要研究领域,如自然语言理解、语义分析、自动编文摘、知识工程、机器翻译和专家系统等研究中都包含着内容分析。图书情报领域主要利用文献计量方法和内容分析方法对图书馆学、情报学、科技、经济和社会等方面的文献进行统计分析,了解其发展现状,并预测其发展趋势。因为内容分析法是一种重要的文献计量分析方法和情报研究方法,不仅自动标引系统、情报检索系统和搜索引擎等设计中包含着内容分析,而且词频统计、主题分析、关键词抽取、概念分析和篇幅分析等实质上就是内容分析法的重要内容和方法。政治、军事、科技与经济领域主要利用内容分析法对这些领域目前的文献信息进行统计分析,了解国内外发展动态,并对其发展动向进行科学的预测,以便采取有效的应对措施。新闻与传播领域主要利用内容分析法对新闻媒介所含的大量信息进行统计分析,捕捉新闻热点和焦点。社会学主要利用内容分析法对有关社会学研究的文献进行统计分析,找出社会发展中人们普遍关心的问题,如人口问题、老年问题、教育问题、犯罪问题、妇女问题和儿童问题等。心理学研究则通过对人们的语言和行为及其相关文献进行分析,以了解人们的心理状态和心理变化等[46~59]。
    内容分析法的应用以文献计量方法和词频统计方法为基础,而文献计量方法和词频统计方法离不开汉语自动分词研究。内容分析法与汉语自动分词研究具有较高的关联度。内容分析法的应用和发展为汉语自动分词研究提出了迫切需求。因此,内容分析法的深入应用也受制于汉语自动分词研究。
    4.3 内容分析法的发展趋势
    目前,内容分析法主要是基于词频统计(包括主题词、关键词和指示诃等)而进行的。基于词频统计分析的内容分析法不能深入文献内部,很难挖掘出文献中隐藏的知识和信息,容易忽视词与词之间的关联,而且词频统计和处理的量十分庞大。因此,要提高内容分析法的科学性和准确性,内容分析法必须从语法分析走向语义分析和语用分析,从手工统计分析走向计算机自动统计分析,即从计算机词频统计分析走向概念分析、段落分析和篇幅分析,这是内容分析法发展的必然趋势。而要实现这一目标,就要首先突破汉语自动分词这一难关,实现计算机对自然语言的有效理解和处理。
      结束语
    汉语自动分词和内容分析法研究是目前情报学研究领域两大最重要和最富有挑战性的课题,它们既有各自独立的研究内容,又存在高度的关联性。因为汉语自动分词中的词典式分词法和内容分析法都是以文献计量方法与词频统计方法为基础而进行的。同时,文献计量方法和词频统计分析方法的改进又能促进词典式自动分词系统的完善。在计算机科学界、情报信息界和汉语语言学界三大领域的专家学者们的共同努力之下,汉语自动分词研究取得了重大的进展,但是离真正的问题解决还有相当漫长的路要走。目前,汉语自动分词研究有望在传统文本的有效切分(即寻找新的分词算法)、人工智能技术与自动分词结合研究和汉语文本书写规则的规范与改造三个方面获得突破。汉语自动分词研究是内容分析法的前提和基础,同时又对内容分析法的研究具有巨大的推动作用。内容分析法的深入发展必须借助于汉语自动分词研究成果,只有解决了汉语自动分词问题,对文献内容的分析才能真正做到精确、客观和可靠。
    其实我们都知道,汉语自动分词研究无论如何已经不是一个单纯的技术问题了,因为它已经同汉语走向世界、中华民族文化的伟大复兴紧密地联系在一起。汉语,作为全世界使用人数最多的一门语言,随着信息时代的到来,其自身的发展和更新已是迫在眉睫。让更多的人了解汉语、学习汉语、使用汉语,将汉文化撒播到全球每一个角落,应该是每一个中国人的梦想。而要实现这一目标,就必须首先解决汉语自动分词问题,以便计算机能对汉语文本进行自由处理,增强汉语的生命力。

【参考文献】
    1 黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001(1):26~29
    2 黄昌宁.中文信息处理中的分词问题.语言文字应用,1997(1):72~78
    3 孙宾.适用于信息检索和提取的汉语词典.北京大学计算语言学研究所研究报告
    4 殷建平.汉语自动分词方法.计算机工程与科学,1998(3):60~65
    5 吴胜远.并行分词方法的研究.计算机研究与发展,1997(7):542~545
    6 杨宗泽.中文自动分词探讨.西南民族学院学报(自科版),1994(3):241~245
    7 文庭孝.情报检索中汉语语词自动切分研究.图书与情报,2001(2):57~58
    8 尹锋.汉语自动分词研究的现状与新思维.现代图书情报技术,1998(4):22~26
    9 黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001(1):26~29
    10 王洪君.《信息处理用现代汉语分词词表》的内部结构和汉语的结构特点.语言文字应用,2001(4):90~97
    11 孙茂松,黄昌宁等.信息处理用现代汉语分词词表.语言文字应用,2001(4):84~89
    12 揭春雨.“信息处理用现代汉语分词规范”的若干问题探讨.中文信息学报,1989(4):33~41
    13 袁毓林.关于分词规范和规范词表若干意见.语言文字应用,2001(4):110
    14 夏历.中文信息处理与语言文字规范化.语文学刊,2002(6):74~76
    15 殷建平.汉语自动分词方法.计算机工程与科学,1998(3):60~65
    16 陈桂林,王永成等.一种改进的快速分词算法.计算机研究与发展,2000(4):418~424
    17 李家福,张亚非.基于EM算法的汉语自动分词算法.情报学报,2002(6):269~272
    18 林绮屏.基于词形的最佳路径分词算法.华南师范大学学报(自然科学版),2002(4):81~84
    19 何炎祥,冯夏根,周水庚.演化算法在中文自动分词中的应用.计算机工程,2002(5):80~82
    20 曹星明,鲁汉榕,李玉珍.基于多种知识源的汉语自动分词.计算机工程与设计,1998(2)
    21 李国臣.汉语自动分词及歧义组合结构的处理.中文信息学报,1988(3):90~93
    22 郑延斌.书面汉语自动分词及歧义分析.河南师范大学学报(自科版),1997(4):90~93
    23 孙茂松,邹嘉彦.汉语自动分词中的若干理论问题.语言文字研究,1995(4):40~47
    24 黄祥喜.书面汉语自动分词的现状和问题.情报学报,1989(2):125~132
    25 林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析.情报学报,1997(增刊):30~33
    26 陈玉忠,李保利,渝士文.藏文自动分词系统的设计与实现.中文信息学报,2003(3):15~20
    27 黄祥喜.书面汉语自动分词的现状和问题.情报学报,1989(2):125~132
    28 黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001(1):26~29
    29 李培.汉语自动标引方法述评.晋图学刊,2000(1):10~19
    30 顾敏,史丽萍,李春玲.自动标引综述.黑龙江水专学报.2000(9):103~104
    31 苏新宁.汉语文献自动标引综析.情报学报,1993(4):309~318
    32 郭慧燕,钟义信等.自动文摘综述.情报学报,2002(5):582~591
    33 白锡嘉.机器翻译与自然语言理解.中国科技翻译,1996(2):31~34
    34 欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究.计算机工程与应用,2000(8):80~83
 

上一页  [1] [2] [3] [4] 下一页

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2009 © www.lsqn.cn All rights reserved
历史千年 版权所有