刘云教授谈中文信息处理
2021年03月22日
中文信息处理的研究方法
在自然语言处理的发展过程中,出现过很多不同的研究方法,这些研究方法在中文信息处理的各类任务中同样被广泛地运用着。语言信息处理的研究方法大体可以分为基于规则的方法和基于统计的方法两大类。这两类方法,从本质上看,是众多科学研究中普遍存在的理性主义方法和经验主义方法在自然语言处理中,理性主义方法或者说基于规则的方法,通常以语言学理 论(特别是形式语法理论)为基础,建立基于规则和知识库的逻辑推理系统,此 时是将自然语言理解为符号结构的(宗成庆,2013)。具体说来,基于规则的方法 是通过语言必须遵守的一系列原则来描述语言,以此来判断一个语言现象是遵循 语言原则的还是违反语言原则的。基于规则的方法通常基于乔姆斯基(Avram Noam Chomsky)的语言理论,首先需要在对各种语言现象进行研究的基础上,归 纳出一系列语言规则,然后再形成一套复杂的规则集,用以对自然语言进行分析 处理(郑捷,2017)。而经验主义方法或者说基于统计的方法则以数理统计和信息论为基础,注重从大规模真实文本中发现自然语言规律,实现基于大规模语料库的统计机器学习方法。基于统计的方法来源于多种数学基础,比如信息论、最优化方法、概率图模型、神经网络等。它从概率的角度来审视语言现象,以此判断某种语言现象是否常见。基于统计的方法偏重于对语料库中人们实际使用的普遍语言现象进行统计,以此得到语言现象的统计规律。纵观语言信息处理的发展历程,在很长一段时间内,许多语言处理系统都是基于规则的,也正因为这一点,语言学的研究都是必不可少的基础。基于规则的方法从 20 世纪 60 年代到 80 年代中期,几乎主宰了自然语言处理的研究。随着计算机技术的成熟与进步、信息处理研究的深入,以及应用目标的发展,人们逐渐转向基于统计的方法。统计方法很快便在语音识别、自动分词、词性标注等方面都取得了不俗的成绩。机器学习方法也由此迅速占领了主流舞台,人们纷纷开始基于大规模人工标注的语料样本建立数学模型,通过调试模型的参数使其达到最优,并最终应用于相应的任务中(宗成庆,2016)。随着大数据时代的到来,基于统计的方法更是在自然语言处理领域独领风骚,将基于规则的方法远远地抛在了后面。不过,虽然当前基于统计的方法在整个自然语言处理领域中占据着优势地位,但是我们也并不能完全舍弃基于规则的方法。两种方法往往具有各自适用的领域,它们在整个自然语言处理发展过程中也都发挥了并将继续发挥重要作用,从这一点看,它们并没有严格的优劣之分;而且不论是哪一种方法,首先都要求人自身对自然语言有深入的了解。比如当前不少对自然语言深层知识的统计,一般是建立在经过标注的熟语料库的基础之上的,而从生语料库到熟语料库,其加工与标注仍然依赖于人对于自然语言的知识,也就是规则(詹卫东,2000a)。这两类方法也并非完全对立,基于规则的方法和基于统计的方法也经常互相结合,彼此取长补短,共同改进语言信息处理技术,提升语言信息处理系统的性能。中文信息处理作为典型的综合性、交叉性学科,涉及不同学科的知识,从事中文信息处理研究的学者也拥有不同的学科背景。来自不同领域的学者在对中文信息处理问题展开研究时,也就形成了不同的研究取向。一般来说,自然语言处理有以下五种研究取向,作为自然语言处理分支学科的中文信息处理,同样适用这五种研究取向。(1)工程主义取向。这一取向主要着眼于计算机应用系统的建立,即意图建立一种可运转的计算机系统。持这种观点的学者会把计算语言学的研究重点放在这种能理解和生成自然语言的计算机系统的结构及各种相应算法的设计上。具体说来,这种类型的自然语言处理研究一般包括三个步骤:第一,数学建模;第二,算法设计;第三,程序实现。这种工程主义取向的计算语言学研究是有很强的应用动机的。因为语言是人类交际和记录信息的工具,如果使计算机获得生成和理解自然语言的能力,那么计算机就能执行只有人类才能完成的工作,诸如翻译、文本处理、信息抽取和检索等。所以,能处理自然语言的计算机系统将使计算机更为有用。通过计算语言学的研究,人们可以开发更多的计算机应用领域。(2)工具主义取向。这种取向主要着眼于利用计算机做语言分析,也就是用计算机来进行语言的计量研究。在这种取向下,利用计算机进行的计量语言学研究往往也容易被包括进来。值得一提的是,在工具主义取向下,随着用计算机来采集、整理、加工和管理语言材料工作的深入开展,语料库语言学这门计算语言学的分支学科逐步形成。语料库语言学一般研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法及语义分析,以及具有上述功能的语料库在语言定量分析、作品风格和作者考证研究、词典编纂、自然语言理解和机器翻译等领域中的运用。所以从方法论上看,语料库语言学跟工程主义的自然语言处理有很大的不同。语料库语言学假定,如果我们能对数量很大的语言数据做出定量化的统计分析,那么我们就能对语言成分的分布和语言成分之间的关系等进行概率性的预测,从而弥补计算机缺乏知识和推理能力的缺点。于是,以语料库为基础的统计模型不仅可以用来解决自然语言的语法标注问题,而且还可以运用到句法、语义等更高层次的分析上来,从而进一步促进应用系统性能的提升。(3)认知主义取向。这种取向主要着眼于人类使用语言时的心理过程,认为可以把计算机作为人类思维的模型,也可以用计算机来模拟人类的认知过程。持这种研究取向的学者喜欢用认知心理学的眼光来看待语言使用。在他们看来,让计算机理解语言的关键是,要能对一般的自然语言的句子做出语义解释,即设计一种一般的内部表示。内部表示是自然语言处理的关键,它影响着系统对语言知识和世界知识的描述和利用,因此也影响着整个处理系统。不同的学者由于对人类处理语言的心理过程的认识不同,因此也会采用不同的理论和方法来建造自然语言处理系统。(4)实证主义取向。这种取向主要着眼于检验语法理论的可靠性,与抱有实用目的的工程主义取向明显不同,在这一取向下,大多数研究并不跟某种特定的应用目标相挂钩,而是另有某种科学研究的目标,例如,用计算机来对语言学家提出的各种语言学理论进行检验,或者把自然语言处理看作理论语言学和计算机技术的桥梁,通过相关工作来沟通语言学理论和计算机技术,来形成语言学技术,从而完成语言学理论在计算机上的应用。在这一过程中,计算机技术和语言学理论无疑是相互影响、相互促进的。这使得计算语言学和理论语言学能够紧密合作,并且产生更为丰硕的成果。(5)逻辑主义取向。这种取向一般着眼于语言学知识的自动发现。一般来说,要建造一个处理自然语言的计算机系统,必须有大量的语言学知识作为基础,但语言学知识的发现工作往往是以手工方式进行的。而在逻辑主义取向下,学者关注的是利用计算机来自动(或辅助)发现语言学知识。利用计算机自动发现语言学知识,可以极大地提高研究的效率,扩大研究的规模,把语言学家从找例句、制卡片、画表格等烦琐的事务中解放出来。这一过程体现着明显的逻辑主义追求,即通过研究语言学知识的发现来探索归纳法的逻辑机制和计算结构(袁毓林,2001)。总的来说,不论以上哪种取向,都属于自然语言处理的范围,只是侧重点会有所不同。