学过《语言学纲要》一书的朋友都知道,一个完整的言语传递,可以简化为“编码-发送-传递-接收-解码”的过程,这其中“语音”这一物质外壳就有着举足轻重的作用。耳朵作为接收器,它对语音的频率、强度、时长等具有极高的感知敏感性。那么,人耳究竟能解析何种程度的复杂声音成分,我又该如何去检测这方面的信息?今天,我们来讲一讲掩蔽(masking)的相关知识。
01 频率选择性 我们应该都有过这样的体验:当你戴着耳机听音乐时,如果我同时放了《晴天》和《七里香》,你也能清楚地听见有两首歌以及它们不同的音高和旋律。简化一下,如果有两个纯音同时出现,你听到两个有着各自音高的纯音。这种能够解析并分离不同声音/复杂声音的能力,就被称为频率选择性(frequency selectivity, 或被称为frequency resolution或frequency analysis)。这种能力与我们人耳的构造有密切关系,它可以帮助我们从噪声中提取到我们需要的声音信息。 人耳耳蜗的听觉频率分布 显而易见,当耳蜗受损时,这种频率选择性也会受到一定的影响。Florentine等人(1980)就针对耳蜗受损的人进行检验,采用了多种方法检测发现他们的频率选择性比正常人要差许多。除此以外,频率选择性受损,会影响人们对音色的感知。助听器在某种程度上可以放大声音,但是并不能弥补这方面的缺陷。 掩蔽及其类型 02 上面我们了解到了人耳的频率选择性,并且了解到频率选择性与声音感知有着密切关系,那么如何测量这个特征?很简单,既然频率选择性等价于人耳对频率解析的能力,那么我们设置一个干扰音,增加或减少相关语音参数,观察到何种程度另一个音就不能被感知到了。这种一个声音由于另一个声音的存在而无法被感知的情况,就是通常所说的掩蔽(masking)现象。 听觉掩蔽效应示意图。其中柱状为掩蔽音(掩蔽信号),圆点表示的是在该频率下,振幅应达到多大,该频率才能在此掩蔽音中被感知到。 通常,一个语音信号最容易被频率相近或相同的声音掩蔽,最大掩蔽作用出现在掩蔽信号频率附近,从上图我们也能看到,当与掩蔽音频率越近,所需要的能被听见的能量就越大,呈现出由掩蔽音向两边递减的趋势。 由于时间是影响掩蔽最重要的参数,根据这一点,掩蔽效应可以被分为同时掩蔽(simultaneous masking)和非同时掩蔽(non-simultaneous masking)。同时掩蔽指的是在某一语音信号产生的时刻,掩蔽信号同时产生。也就是说,语音信号何时开始何时结束,掩蔽信号也同样何时开始何时结束。但是,学者研究发现,当听觉信号与掩蔽信号并不同步的时候(前或后出现),也会产生一定的掩蔽效应,这种就被称为非同时掩蔽。 同时掩蔽和非同时掩蔽 从上面的示意图也不难看出,根据掩蔽信号和听觉信号出现顺序的不同,非同时掩蔽又可以被分为前掩蔽(pre-masking)和后掩蔽(post-masking)。针对于前掩蔽和后掩蔽的神经处理过程,还需要更多的研究来进行佐证。 03 临界带宽 现在,我们知道了人耳具有频率选择性,也知道了可以通过掩蔽效应来进行频率选择性的测量。最后,我们来谈一谈在进行掩蔽处理时,遇到的另一个名词。 Fletcher (1940)做过一项有关掩蔽噪声的研究,主要研究了在正弦信号中,带通掩蔽噪声的带宽函数(有关带通和带宽的概念,请查阅语音“喝茶”的艺术)。他发现,当一个掩蔽噪声的带宽逐渐减少到某一个时刻时,被掩蔽的信号会突然被感知到,并且随着带宽的逐渐减小,被掩蔽信号会越来越响。这个刚好让被掩蔽信号处在可感知/不可感知的带宽,就被称为临界带宽(critical band)。过了这个界限,掩蔽噪声带宽的增加,并不会显著提高掩蔽量。 在给出临界带宽的定义后,我们就可以设定自己所需要的掩蔽噪声。至此,我们对“掩蔽”这一效应有了基本的了解,想必你对日后阅读到有关掩蔽效应的研究时,不再会一头雾水了。 Fletcher, H. (1940). Auditory patterns. Reviews of modern physics, 12(1), 47. Florentine, M., Buus, S., Scharf, B., & Zwicker, E. (1980). Frequency selectivity in normally-hearing and hearing-impaired observers. Journal of Speech, Language, and Hearing Research, 23(3), 646-669. Moore, B. C. (2012). An Introduction to the Psychology of Hearing. Brill.
本文来源公众号
奈提柯斯先生
https://mp.weixin.qq.com/s/AvY9f0BnJ-0L9JZD7yMYGg