第二节 语音学研究全面发展:20世纪90年代至2012年
进入90年代后,语音研究和言语工程的结合越来越紧密,语音研究对象从孤立的单音节进入到自然的连续话语,从单纯的音段研究发展到音段、超音段兼顾,特别是加强了协同发音、语流音变、重音、节奏、语调和韵律结构等研究。随着计算机技术和语音分析手段的现代化,尤其是进入21世纪以后,语音研究发展更加迅速。
一、 理论与建模研究
首先是人类发音机理与三维发音建模研究。
20世纪90年代后期开始,国际学术界普遍使用MRI、CT等设备采集三维发音器官的形态数据,用于发音器官的形态分析和轮廓建模;使用NDI Wave、超声等设备采集发音器官特征点的运动数据,用于发音器官运动特征的分析和建模。发音器官模型是基于发音机理的发音模型的重要基础;发音器官模型的准确与否直接决定生成的目标语音是否准确。运用党建武的生理模型,方强等(2016,An improved 3D geometic tongue model, Interspeech 2016, 1104-1107; 2018, A nonlinear 3D geometic tongue model, ICASSP 2018, 4989-4993)采用基于发音器官的建模方法,实现了对发音器官轮廓的准确建模,并且已经在少量发音的MRI数据上进行了研究,在模型的准确度和发音器官运动的自由度的解释力上都强于传统模型。
随着深度学习技术发展,运用统计学习和深度神经网络对发音器官轮廓的自动提取技术得到应用。方强等(Acoustic VR in the Mouth: A Real-Time Speech-Driven Visual Tongue System, IEEE VR 2017)结合EMA、语音和fMRI数据,利用DNN方法,构建了一个实时 3D VR发音模型。研究提出了舌头的二次重构模型,大幅提高了模型的重建精度。对舌头模型引入了体积不变性约束,保证运动过程中发音器官形态的合理性。研究还初步考察了考虑不同时刻不同发音器官在发音过程中重要性高斯加权对进一步提高发音逆推的准确性的作用,实验表明效果不明显。
北京大学孔江平《论语言发声》(中央民族大学出版社,2001)从语音学、言语声学、嗓音生理等多角度讨论了语言嗓音发声类型方面的研究,尤其是少数民族语言的嗓音发声;研究涉及语言发声的语音学理论、声学特性与分析方法、基于高速数字成像的动态声门研究等内容。其后,孔江平团队围绕其主持的国家自然科学基金面上项目“汉语普通话语音生理模型研究”(批准号:61073085,2011至2013年)开展了语音生理建模的系列研究:1)汉语普通话X光动态声道研究;2)汉语普通话磁共振三维声道研究;3)声带振动高速数字成像;4)汉语普通话呼吸韵律研究;5)汉语普通话发音模型、嗓音发声模型、呼吸模型、唇形模型及其相对应的声学特性的研究。
此外,对发音机理的探索也来自语言的本体研究。根据对电磁发音仪(EMA)数据的统计建模,胡方的系列论文探讨了元音产生中的舌运动机制(《论元音产生中的舌运动机制——以宁波方言为例》,《中国语音学报》第一辑,商务印书馆,2008年版)、舌颚配合机制(《论元音发音中的舌颚配合机制》,载路继伦、王嘉龄主编,《现代语音学与音系学研究》,天津社会科学院出版社,2004年版)、舌运动与元音内在音高的关系(Hu, F. 2004, Tonal effect on vowel articulation in a tone language.Proceedings of TAL 2004, pp. 97-100. Beijing, China;Hoole, P. & Hu, F. 2004, Tone-vowel interaction in Standard Chinese.Proceedings of TAL 2004, Beijing, China, 2004)等理论问题。
最后,语音产生的研究不仅关注本体,而且也越来越关注情感等泛语言学、非语言学的内容。李爱军英文专著Encoding and Decoding of Emotional Speech: A Cross-Cultural and Multimodal Study between Chinese and Japanese (Springer, 2015),首次从中日跨文化的角度,利用心理语言学和语音学方法,探讨多模态情感语音的编码、解码机制以及编解码之间的关系。中日语言文化背景之间情感编码和解码有相同也有跨文化的差异,作为声调语言的汉语,其情感语调还采用后续叠加边界调的编码方式来表达情感语气。通过分析情感语调的声学特征与情感表达的关系,说明了情感语音的编码和解码之间是复杂的多对多的关系。
二、 本体研究
(一)语言学本体
与前一时期相比,关注语言本体的语音学研究向纵深拓展:在研究对象方面,由主要关注普通话语音向汉语方言与少数民族语言拓展;在研究内容方面,不仅涉及声韵调等音节语音学的内容,而且包括跨音节的、甚至语篇层面的韵律、语调、情感等内容;在研究方法方面,不仅使用生理、声学、心理等实验室采样,而且包括自然语流。代表性的研究团队从中国社会科学院语言研究所、民族学与人类学研究所、北京大学等向南开大学、复旦大学、南京师范大学等高校与科研机构扩展。
北京大学的孔江平团队依托其所主持的教育部人文社科基地重大项目(批准号:10JJD740007,2011—2013年)“中国有声语言及口传文化保护与传承的数字化平台建设”开展了系列研究,发表了系列成果,尤其值得关注的是对于少数民族语音现象的调查与实验研究,其中,关于藏语调查研究的经验总结为《藏语方言调查表》(孔江平、于洪志、李永宏、达哇彭措、华侃,商务印书馆,2011年版)。
中国社会科学院民族学与人类学研究所的实验语音学研究比较有特色的是北方少数民族的语音研究,尤其是蒙古语的语音学研究,代表作:呼和的《蒙古语语音实验研究》(辽宁民族出版社2009年版)、哈斯其木格的《基于动态腭位图谱的蒙古语辅音研究》(社会科学出版社2013年版)。
中国社会科学院语言研究所的实验语音学本体研究则以汉语方言为主要研究对象,代表作如胡方的《宁波话元音的语音学研究》(2005年香港城市大学博士论文,2014年由中国社会科学出版社出版)使用声学采样、发音生理、空气动力学实验等科学手段对宁波方言的元音产生进行了全面的语音学分析,不仅验证了元音产生过程中具有人类语言普遍性的舌运动机制,而且揭示了宁波方言特有的圆唇特征,探讨了汉语方言特有的舌尖元音的性质等具有理论意义的语音现象。
南开大学的石锋团队围绕通过实验语音学数据反映音系格局这一核心理念,对汉语与方言,以及相关少数民族语言进行了语音格局描写,并从早期的声调格局开始,逐渐扩展到元音格局、辅音格局等内容(代表作:石锋,2008,《语音格局——语音学与音系学的交汇点》,商务印书馆),近期还包括语调格局(石锋,2013,《语调格局——实验语言学的奠基石》)。
复旦大学实验语音学研究以吴语为主要研究对象,代表著作包括游汝杰、杨剑桥主编《吴语声调的实验研究》(复旦大学出版社,2001)、平悦铃的《上海方言语音动态腭位研究》(香港文汇出版社,2004)等。南京师范大学的实验语音学研究以汉语方言中的声调问题为主要研究对象,代表性著作包括刘俐李等的《江淮方言声调实验研究和折度分析》(四川巴蜀书社2007年版)。
香港科技大学的朱晓农在其1995年完成的澳大利亚国立大学博士论文的基础上出版了中文修改版《上海声调实验录》(上海教育出版社,2005年版),并在2010年出版了以汉语、方言、少数民族语言研究为基础的 《语音学》(商务印书馆)。此外,朱晓农的系列论文加深了学界对于发声态在语言中的作用的理解,比如《浙江台州方言中的嘎裂声中折调》(《方言》2004年3期)、“Creaky voice and the dialectal boundary between Taizhou and Wuzhou Wu”(Journal of Chinese Linguistics,34,2006)、《证早期上声带假声》(《中国语文》2007年2期)、《嘎裂化:哈尼语紧元音》(与周学文合作,《民族语文》2008年4期)、《弛声化:佤语中的松元音》(与龙从军合作,《民族语文》2009年2期)、《全浊弛声论:兼论全浊清化(消弛)低送高不送》(《语言研究》2010年3期)等。
(二)声调与语调
汉语是声调语言,因此,关于声调以及语调的研究一直是汉语语音的本体研究的重中之重。
吴宗济先生关于声调和语调的一列研究,集中体现在《吴宗济语言学文集》(商务印书馆,2004年版)。他认为汉语不同于西方的非声调语言。单就声调而言,就有“字调”与“句调”的不同。一个句子中各短语(基本单元)的调形,有些是有规律的,有些竟是几种调形的混合体,从来在语音研究中成为难于分析的瓶颈。按物理学的论点,一切事物的变化不论多么复杂,必有其生成的原因,不会无中生有。语音的变量尽管复杂,也应该有其原因。以声调而言,其变化再多,必然是“三个条件”(或称“三个平面”)相互依存制约的结果。首先是发音生理和发音声学(暂不提心理学)的条件,是属于语音学的范畴;再就是词句结构的条件,属于语法学的范畴;还有是历时的与共时的语音演变的条件,属于音系学(或音韵学)的范畴。
吴宗济提出了普通话三、四字组的连读变调规则,特别对上声连读的连锁变调,剖析了从底层到表层的递变,是服从音系的、语音的和语法的三种不同平面的规则的。这就为多字变调的规则提供了理论依据。他提出了“跳板规则”“多米诺规则”“音系学规律”“调位守恒”“移调”“变域”“韵律互补”等规则和原则。还对情感语调和篇章中语调的声学表现进行了探索性研究,发现篇章韵律和书法绘画等等其他艺术表达手段有很多共同认知基础。
吴宗济指出普通话短语调域在不同语气中的守恒性,并用实验证明:多组四声的调域在不同基调中,其旋律关系都是相等的。这就把语调处理的难度减轻了不少。吴先生提出了普通话不同语气语调可预测性,并指出了韵律三特征在语句中的相互补偿作用,及其搭配规则。1997年,吴先生提出《全语音标记文本》的设计方案,列举普通话中所有的音段和超音段连读变化的标记,为应用于语音合成建立了规正数据的范例。同年,吴先生提出了普通话韵律特征的标记文本。
林茂灿《汉语语调实验研究》(中国社会科学出版社2012年版)通过语音实验对汉语的声调、重音以及功能语调等问题进行了全面而系统地研究。提出了语调“双要素”理论,强调语调实验研究在对外汉语教学上的应用。林茂灿利用AM理论研究汉语的语调,提出汉语语调的双要素模型:音高重调和边界调,它们分别传递焦点和语气信息。汉语语调的主要特征是音高重调和边界调的音高(F0)曲线位置和/或范围,而声调的特征是其音高(F0)曲拱,所以,语调和声调在音高(F0)上的表现是不同的。认为区分汉语疑问和陈述语调的信息存在于句末音节,疑问边界调F0曲拱音阶(调阶)比单念字调的高,陈述边界调F0曲拱音阶(调阶)比单念字调的低。汉语疑问和陈述边界调特征是:[±raised]。
沈炯在《汉语语调模型刍议》(《语文研究》1992年第4期)提出语调的“高低线理论”,以赵元任音域调节的角度来考察语调,认为代数和往往用在多因素的内在语音变化中,它们跟语音的区别性质没有直接的关系。将音域分为高音线和低音线,不同句型的语调音高在这两条线上的变化程度不一致,音域变化受这两条线的制约。
曹剑芬对汉语节奏的考察实际上是对汉语韵律结构的开创性研究,主要通过对汉语韵律切分的声学特性及其语音学和语言学线索的考察,重点讨论了韵律词和韵律短语的界定、停顿分布与句法结构和词性特点的关系以及实际言语中的韵律词组词规律。她对汉语声调与语调关系的探索,重点解剖了汉语语调的深层结构。同时,曹剑芬还对语音学和言语处理普遍关注的、跟韵律结构密切相关的语音变化问题进行了初步探索,先后发表了“音段延长的不同类型及其韵律价值”(《南京师范大学文学院学报》2005年第4期)、“发音增强与减缩——语言学动因及语音学机理”(《中国语音学报》第一辑,商务印书馆2008年版)、How do Speech Sounds Vary and Serve Efficient Communication? (《庆祝吴宗济先生百岁华诞纪念文集》,商务印书馆2010年版)等论述。曹剑芬的主要论文收录在论文集《现代语音研究与探索》(商务印书馆2007年版)与《语言的韵律与语音的变化》(中国社会科学出版社2016年版)。
对韵律与语调的讨论也涉及焦点问题,涉及多种语言和方言。许毅(1999,Effects of tone and focus on the formation and alignment of f0 contours, Journal of Phonetics, 27, 55-105)最初观察到焦点的音高曲线加强,焦点后的音高曲线压缩;但后期的研究则强调焦点后压缩(PFC: post-focus compression),并通过语言中是否存在焦点后压缩进行分类(比如:Xu, Y. 2011, Post-focus compression: Cross-linguistic distribution and historical origin. The 17th International Congress of Phonetic Sciences, pp. 152—155, Hong Kong; Wang, B. & Xu, Y. 2011, Differential prosodic encoding of topic and focus in sentence-initial position in Mandarin Chinese. Journal of Phonetics, 37, 502-520; Chen, Y., Xu, Y. and Guion-Anderson, S. 2014, Prosodic realization of focus in bilingual production of Southern Min and Mandarin. Phonetica, 71, 249—270; Alzaidi, M., Xu, Y. & Xu, A. 2019, Prosodic Encoding of Focus in Hijazi Arabic. Speech Communication, 106, 127-149)。其他学者也有提到非焦点成分的音高曲线在语流中被压缩的现象,比如胡方(2002,A prosodic analysis of wh-words in Standard Chinese, Speech Prosody 2002, pp. 403-406. Aix-en-Provence: Laboratoire Parole et Langage.中文修正版《汉语普通话疑问词韵律的语音学研究》,《中国语文》2005年第3期269-278页)通过考察普通话疑问句发现,焦点成分是句子的语调重音所在,因而其本身之词调拱度能够得到保持,有时得到增强,然而非焦点成分之词调拱度则会被压缩弱化、有时甚至弱化成一个平调。
另外值得注意的是台湾“中研院”语言学研究所郑秋豫(2010)提出“阶层式多短语语流韵律HPG架构”(Hierarchical Prosodic Phrase Grouping)(《语篇的基频构组与语流韵律体现》,《语言暨语言学》11,183-218),说明口语语流的基频行为是由字调、韵律词调、句法调、语篇联系位置、边界延长、停顿等多种成分系统性共构而成,各级韵律单位对韵律生成均有贡献,层级贡献度可通过统计分析厘清。
三、 应用研究
1995年在瑞典斯德哥尔摩召开的第13届国际语音科学大会上,提出了“语音学是一门独立的科学”。1996年在中国社会科学院语言研究所主办的第三届全国现代语音学会议文集的前言中反映了同样的观点。
语音研究中采用各种实验方法大致有两个作用:一是“弥补听官之不足”,二是揭示言语交际的机理,解释自然连续语音中的各种现象。科学发展到今天,对语音现象,只作描写已经不够了(对语音作描写是必要的,但不是充分的)。有关学科如生命科学和人工智能(包括言语工程)等,要求语音学家对语音现象做出解释。因而,在语音研究中,语音实验研究的第二个作用越来越大;也正因为如此,用“实验语音学”一词来概括我们所研究的学问似乎已经不太确切,因为这个提法不能涵盖语音研究的全部内容,因而必须称为语音学。现在人们认识到,语音学是一门语言的科学。
这一时期,国际科技巨头,如微软、IBM、摩托罗拉、诺基亚等等,看准了语音技术的发展前景,纷纷抢滩中国,在中国建立了各种研究中心和研究院。语音学研究有了更大的应用需求,与言语工程学界的合作日渐增加。
科技巨头在中国的研究中心,以语音合成、语音识别技术、声纹识别技术研发为主,同时也与中国的高校和研究所开展各种合作研究。包括自然话语的语调韵律特征研究、少数民族语言语音合成、多风格语音合成研究、情感语音研究、地方普通话和英语学习者口音研究、音段与音段音变的研究、音段的语音实现与超音段的韵律结构的关系研究等。
1990年,吴宗济先生在东京初次见到中国科技大学的王仁华教授,得知他们和藤琦博也先生一直合作进行汉语语音合成研究。1994年吴先生在横滨会议上再次见到王教授,王教授说:“觉得只有你的成果才能解决我们的问题。”以后,王教授不断派刘庆峰(现任科大讯飞董事长)跟吴先生学习语音学,也请吴先生到中国科技大学讲学,一起完成了自然科学基金项目“用定量化变调规则和移调方法合成汉语语调”。
1992年和1993年由李爱军负责,语言研究所语音研究室连续两年参加国家863语音合成系统的评测,是唯一一个基于共振峰规则合成的系统。1996年,语音室开始承担国家863项目,第一个项目就是关于连续语音库的文本设计,在祖漪清的负责下,顺利完成了国家级的语音识别语音库设计,这个库也成为国家各个语音识别单位使用的标注库,之后祖漪清和李爱军负责完成了863语音合成语料库的设计,同时提出了汉语的韵律标注系统C-TOBI(李智强、李爱军)、音段标注系统SAMPA-C。此后,在语料库的基础上,开展了连续话语中一系列语音问题研究。
2000年,中国社会科学院语言研究所语音研究室与科大讯飞公司成立了中国社会科学院讯飞语音实验室。科大讯飞公司是国家863支持的自主语音产业化基地,吴宗济先生被聘请为顾问,语音实验室在联合实验的平台下,适时开展了面向语音技术的基础研究,以自然话语处理中的语音问题为主要研究对象,还包括与语音问题相关的句法、语义和语用等方面的问题。
2003年中央台《走进科学》栏目采访吴宗济先生,2007年中央电视台《大家》栏目制作了吴先生的专访,体现了语音学研究在言语工程应用中的重要作用。