用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 文化 | 社会
相关文章    
您现在的位置: 历史千年 >> 文化 >> 文化研究 >> 正文
汉语是世界最先进的语言
我的汉语系统改革意见
试论古代汉语中的“谓语…
能指盛宴年代的汉语文学
“超隐喻”:“汉语”之…
隔在中西之间的日本——…
中国当代藏族作家汉语创…
用于中文信息自动分类的…
汉语俗语与汉民族的本土…
论现代汉语方位词的定义…
最新热门    
 
汉语自动分词与内容分析法研究

时间:2009-8-8 16:47:09  来源:不详
所启发了。日语同汉语十分接近,但日语较汉语适合于计算机自动处理。这是因为日语有丰富的词缀,日语中大量使用片假名和平假名构成了书面日语的词尾变化,而这些词缀可以作为计算机识别词的标志。虽然汉语不能像日语那样构造大量的词缀来作为词的标志,但是可以模仿日语设立其他词缀来区分词,如在词与词之间增加分隔符。韩语本身也有适合计算机自动处理的优势,因为韩语是部件式结构,能进行自由拆分和组合。而我国藏族的藏语是黏着性语言,在一定意义上,我们可以把传统藏文语法看作是由格助词及其接续特征规则构成的语法系统。这一语法系统的主要特点就是:各类名词性成分借助格助词及其接续特征规则构成句节进而由句节结合动词来组织句子。一般而言,藏语的句子是以动词为中心来组织的,动词决定着格助词的添接规则[26]。相比之下,汉语则明显缺乏足够的自动分词信息,所以必须对汉语文本进行改造,添加必要的分词信息。
    基于以上启示,汉语的书写规则是完全可以进行改造的。如果词的范畴已经明确,书写规则已经制定,而且分隔符也已确定,那么我们就可以对汉语书写规则进行适当的改造了。这是一种新的分词思维,是一种类似英语词切分的无词典式分词方法,即改造书面汉语书写规则,在规范词的基础上,书写或录入时在词与词之间增加分隔符,增加自动分词信息,以便计算机自动识别和切分。这是一种一劳永逸的分词方法。尽管目前我们还不习惯,但是一旦它形成标准,而编辑部和出版社又按此标准对稿件进行规范时,我们有理由相信只要假以时日,就会有一种新的适合计算机自动处理的新的汉语文本出现,而这种文本并不破坏汉语自身固有的特色和优点。
    此外,在进行信息交流和处理时,我们除了使用自然语言之外,还有很多其他的人工语言,如数学语言、检索语言、逻辑语言、程序设计语言等,是自然语言交流的补充。这些人工语言和自然语言一样都有一个共同特点,那就是都有一定数量的符号系统和一套完整的语法规则。但是,这些人工语言在很大程度上都适应了计算机技术的发展,具有较强的生命力。由此可得,我们应该能像这些人工语言一样设计出一套新的语言符号系统,模拟现有的汉语语言,并对其进行改造。例如,在数学语言中,“因为”通常用“∵”表示,“所以”通常用“∴”表示,清楚明白,一看便知。又如,在普通逻辑的三段论推理中,分别用“P”、“S”、“M”表示大前提、小前提和结论。数理逻辑和各种程序设计语言中的符号系统更是十分完备,完全可以用来进行信息表示、信息传递、信息存储和信息处理,并实现信息的自由交流。

      3 汉语自动分词应用研究

    书面汉语自动分词的研究具有重要的理论和应用价值,它的最终解决将对以下几个方面产生实质性影响[35]:汉语语言理解;计算机系统的汉语人机接口;机器翻译;情报检索、信息检索和自然语言检索;自动标引;自动编制文摘、目录与索引;词频统计、概念分析和内容分析;语言文字自动处理;人工智能和知识工程;智能计算机;专家系统和知识库;搜索引擎和网站建设;数据挖掘、知识挖掘;汉语语言学;认知心理学等。
    正是由于自动分词问题在以上研究领域的重要性,所以它受到人工智能界、汉语语言学界、情报检索界、计算机应用界和其他各界人士的广泛关注。汉语自动分词应用相当广泛,已经在信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等方面取得了重大的研究成果。
    (1)信息检索。自动分词与信息检索的结合实现自然语言检索接口是自然语言检索的一个重要方面,自动分词是实现基于自然语言理解的智能检索的前提,是贯穿于信息检索系统整体流程中不可缺少的处理步骤[27]。在信息检索系统的设计中,如果能先解决自动分词问题,就会大大提高检索系统的检索效率。检索语言的发展趋势应是检索语言的自然语言化发展与自然语言的检索语言化发展的双向结合。

    (2)自动标引。以自动分词为基础,专家学者们研制出了多种自动标引系统,归结起来有:词典切分标引法、单汉字标引法、机助标引法、统计标引法、逻辑推理法、语法语义分析标引法、自动标引专家系统和神经网络分词标引法等。这些自动标引方法可以分为三类,即统计法、语言法和人工智能法。并相应地开发出了一些科学实用的自动标引系统[28~30]。
    (3)自动文摘。自动文摘是自动分词的一个十分重要的应用领域。国外在自动文摘研究方面已经取得了丰富的研究成果,并开发了大量实用的自动文摘系统。相比之下,汉语自动文摘研究较为困难,研究成果也相对较少。汉语自动文摘必须首先攻克汉语自动分词这一难题。尽管困难重重,我国在自动文摘研究方面仍然取得了一系列可喜的成绩,自动文摘理论和方法研究成果不断涌现,针对汉语自身特点而开发的中文自动文摘系统也开始由实验走向应用[31]。
    (4)机器翻译。机器翻译本质上是对人类思维和语言活动的模拟,突破的焦点是让计算机理解和表达人类的语言。目前国内外关于机器翻译研究已取得了丰富的研究成果,并已经进入了实用性应用阶段。但要实现全自动高质量的机器翻译仍是一个长远目标,不可能在短期内实现,需要多个领域的学者专家们长期不懈的努力和追求[32]。
  (5)搜索引擎研究。中文搜索引擎的重点在于中文关键信息的提取,其中的难点就是中文自动分词。随着因特网在我国的发展和普及,中文搜索引擎研究有了重大突破。在短期内就涌现出了许多重要的中文搜索引擎,并得到了广泛应用。目前,已开发并投入使用的中文搜索引擎已达上百种,并且数量仍在不断增加,质量也不断提高。但是,中文搜索引擎研究开发仍然存在大量的问题,如在信息组织、检索速度、检准率和检全率等方面还有较大的发展空间。今后,中文搜索引擎的研究方向应是将中文自动分词、信息检索、自然语言理解和人工智能等与搜索引擎研究相结合[33~34]。
    (6)语言文字研究。计算机的出现和发展,引起了科学技术的巨大变化,也为语言学研究开辟了新的发展途径。计算机一方面对语言学提出了一系列新的要求,希望能用语言学武装其“头脑”,以发展它的智力(如赋予它信息检索能力、语言翻译能力、自然语言理解能力);给它添加“翅膀”,以赋予它更强的听觉(如识别口语)、视觉(如识别文字)、说话(如言语合成)和听写能力(如语音打字)。另一方面它又充当语言学的得力助手,帮助语言学工作者对语言素材进行分类、统计、演算、控制和模拟等。这也正是内容分析法需要研究的重要内容之一。将计算机与语言学有机结合起来,彼此互助,彼此互补,计算机便可能实现高度智能化。利用计算机来处理自然语言是一门新学科,即计算语言学。目前研究得比较多的课题有:机器翻译、情报检索、言语识别和言语合成、汉字信息处理、语音分析、人工智能中的自然语言理解等[35]。
    (7)自然语言理解。自然语言理解是人工智能研究的最重要课题之一,同时也是自动分词研究最前沿的难题之一。国外在自然语言理解方面的研究起步较早,一些卓有成就的计算机专家、语言学家、逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的理论的方法。比较有影响的理论有:转换生成语法、依存语法、语义网络、蒙塔鸠语法、扩展转换网络、系统语法、格语法和语义网络理论、概念依存理论、境况语义学和语料库语言学等。这些理论和方法大致可归为基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法三类。尽管国外在自然语言理解上研究较早,成熟的理论和方法也不少,开发的实验系统也不计其数,但到目前为止,这些系统离真正的实用要求尚存在较大距离。国内在自然语言理解研究方面起步较晚,且较为系统的研究成果也为数不多。因为我国的自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究,并不以计算机处理汉语为目的,尽管语言学家设计了许多汉语语法体系,可这些体系很难直接在自然语言理解的研究中得到有效应用。同时,由于汉语是无形态变化的语种,因此无法直接套用西方现有的语法、语义结构体系,这使得汉语自然语言理解研究工作困难重重。但令人欣慰的是,近几年,国内自然语言理解的研究取得了很大的成绩,无论在汉语书面语的自动切分、汉语电子词典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用研究领域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现了不少拓荒之作,取得了骄人的成果[36~37]。
    (8)内容分析研究。除以上应用研究外,汉语自动分词还在其他一些相关领域也得到了充分的利用,如词频统计、文本内容分析、概念分析和数据库编制等。其中内容分析已成为汉语自动分词应用研究的重要内容之一。汉语自动分词及其研究成果都可以直接或者间接地应用到内容分析法中来,并构成内容分析法的重要研究内容、方法和手段。此外,汉语自动分词还可以直接用于词频统计、主题分析、篇幅分析、文献内容分析、概念分析和数据库系统设计等方面。因为就目前来看,所有词典式汉语自动分词系统几乎都是以词频统计分析为前提和基础的。例如,自动标引和信息检索系统的设计就是以词典式汉语自动分词系统为基础。在信息检索系统的设计中,如果能先解决自动分词问题,就会大大提高检索系统的检索效率。而信息检索系统又是内容分析法进行统计和分析的数据来源,同时也是内容分析法的一种重要的辅助手段。信息检索系统检索效率的高低及数据完备程度,能够决定内容分析法结论的准确和客观程度。

      4 汉语自动分词研究与内容分析法

    汉语自动分词是内容分析法的前提和基础,对内容分析法技术、方法和应用具有巨大的影响。如何综合利用汉语自动分词研究成果、计算机技术、文献计量方法和内容分析方法,深入文献内部,对其内容、信息和知识进行测度和综合研究,实现内容分析的自动化,提高研究效率和分析结果的可靠性与准确性是目前急需重点研究和解决的重大课题,也是情报学和文献计量学发展当前所面临的重大课题之一。
    4.1 汉语自动分词研究对内容分析技术与方法的影响
    内容分析法(Content Anolysis)是一种对文献内容进行客观、系统和量化描述与分析的研究方法,是社会科学研究中普遍使用的一种科学方法[38~39]。对文献内容的研究可分为定性研究与定量研究两种方式,分别从不同的侧面对文献中所包含的信息和知识进行加工处理与分析,从而得出相应的研究结论。但人们通常将对文献内容的定量研究称为内容分析法。内容分析法最早萌发于新闻界,后来扩展到图书情报乃至整个社会科学领域,在信息传播、情报研究与决策分析中有着重要的地位和作用[40~41]。客观、系统和定量是内容分析法的基本特征,而“定量”是内容分析法最为显著的特征,是达到“精确”和“客观”的一种必要手段。因此,内容分析法结论的准确性、客观性和可靠性取决于定量化的程度。在定量化的过程中,除了对大量的文献样本进行统计分析之外,还必须对样本文献自身所包含的知识内容进行统计分析。词频统计分析法是内容分析法中最基本的分析方法之一,而计算机辅助词频统计则是内容分析法最重要的技术手段之一,目前国内外有关内容分析法的理论与应用研究主要以词频统计分析为基础。从广义上来说,词频统计分析法包括所有以词或词组为单元的分析技术和方法,如主题

上一页  [1] [2] [3] [4] 下一页

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2009 © www.lsqn.cn All rights reserved
历史千年 版权所有