自然语言处理两千字 下载本文

自然语言处理

信计1101 郭东旭 20111399

早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。

人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 一.什么是然语言处理

美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。

简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。

互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。 二.自然语言处理的发展历史

自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。

? 萌芽期(1956年以前)

1956年以前,可以看作自然语言处理的基础研究阶段。一方面,人类文明经过了几千

1

年的发展,积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件,同时也是自然语言处理的理论基础。另一方面,阿兰·图灵在1936年首次提出了“图灵机”的概念。“图灵机”作为计算机的理论基础,促使了1946年电子计算机的诞生。而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。

由于来自机器翻译的社会需求,这一时期也进行了许多自然语言处理的基础研究。1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。接着,他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。上世纪50年代初,Kleene研究了有限自动机和正则表达式。1956年,Chomsky又提出了上下文无关语法,并把它运用到自然语言处理中。他们的工作直接引起了基于规则和基于概率这两种不同的自然语言处理技术的产生。而这两种不同的自然语言处理方法,又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。

另外,这一时期还取得了一些令人瞩目的研究成果。比如,1946年K?enig进行了关于声谱的研究。1952年Bell实验室语音识别系统的研究。1956年人工智能的诞生为自然语言处理翻开了新的篇章。这些研究成果在后来的数十年中逐步与自然语言处理中的其他技术相结合。这种结合既丰富了自然语言处理的技术手段,同时也拓宽了自然语言处理的社会应用面。

? 快速发展期(1957-1970)

自然语言处理在这一时期很快融入了人工智能的研究领域中。由于有基于规则和基于概率这两种不同方法的存在,自然语言处理的研究在这一时期分为了两大阵营。一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。

这一时期,两种方法的研究都取得了长足的发展。从50年代中期开始到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究,60年代末又进行了形式逻辑系统的研究。而随机派学者采用基于贝叶斯方法的统计学研究方法,在这一时期也取得了很大的进步。但由于在人工智能领域中,这一时期多数学者注重研究推理和逻辑问题,只有少数来自统计学专业和电子专业的学者在研究基于概率的统计方法和神经网络,所以,在这一时期中,基于规则方法的研究势头明显强于基于概率方法的研究势头。这一时期的重要研究成果包括1959年宾夕法尼亚大学研制成功的TDAP系统,布朗美国英语语料库的建立等。1967年美国心理学家Neisser提出认知心理学的概念,直接把自然语言处理与人类的认知联系起来了。

? 低速的发展期(1971 -1993)

2

随着研究的深入,由于人们看到基于自然语言处理的应用并不能在短时间内得到解决,而一连串的新问题又不断地涌现,于是,许多人对自然语言处理的研究丧失了信心。从70年代开始,自然语言处理的研究进入了低谷时期。

但尽管如此,一些发达国家的研究人员依旧不依不挠地继续着他们的研究。由于他们的出色工作,自然语言处理在这一低谷时期同样取得了一些成果。70年代,基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计方法在语音识别领域获得成功。80年代初,话语分析(Discourse Analysis)也取得了重大进展。之后,由于自然语言处理研究者对于过去的研究进行了反思,有限状态模型和经验主义研究方法也开始复苏。

? 复苏融合期(1994年至今)

90年代中期以后,有两件事从根本上促进了自然语言处理研究的复苏与发展。一件事是90年代中期以来,计算机的速度和存储量大幅增加,为自然语言处理改善了物质基础,使得语音和语言处理的商品化开发成为可能;另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。这样,自然语言处理的社会需求更加迫切,自然语言处理的应用面也更加宽广,自然语言处理不再局限于机器翻译、语音控制等早期研究领域了。 三.自然语言处理的研究内容

自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: ? 语言学方向

本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 ? 数据处理方向

是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。

? 人工智能和认知科学方向

在这个方向 中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。

3

? 语言工程方向

主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 四.自然语言处理研究的发展趋势

21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力。

自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。

当前国外自然语言处理研究有三个显著的特点:

第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。

随着人们对大规模真实文本处理的日益关注, 越来越多的学者认识到, 基于语料库的分析方法(即经验主义的方法) 至少是对基于规则的分析方法(即理性主义的方法) 的一个重要补充。因为从“大规模”和“真实”这两个因素来考察, 语料库才是最理想的语言知识资源。

第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。 传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的, 由于人的记忆能力有限, 任何语言学家,都不可能记忆和处理浩如烟海的全部的语言数据, 因此, 使用传统的手工方法来获取语言知识是不可行的而带有很大的主观性。当前的自然语言处理研究提倡建立语料库, 使用机器学习的方法, 让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设, 成为了当前这个领域的热点。

第三, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。

4

使用人工观察和内省的方法, 显然不可能从浩如烟海的语料库中获取精确可靠的语言知识, 必须使用统计数学的方法。目前,自然语言处理中的统计数学方法已经相当成熟, 如果我们认真地学会了统计数学, 努力地掌握了统计数学, 就会使我们在获取语言知识的过程中如虎添翼。

目前,我国的自然语言处理研究虽然已经取得不少成绩, 但是与国际水平相比, 差距还很大。我国的自然语言处理研究, 无论在理论上还是在应用系统的开发上, 基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究, 很少有创造性的研究, 当然更谈不上具有原创思想的研究了。因此, 我们不能夜郎自大, 不能坐井观天,我们只有努力学习国外的先进成果, 赶上并超过国际先进水平, 使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。

5