录音设备与格式选择 - 北京华睿宝科技有限公司

录音设备与格式选择

2021年11月24日

硬件选择是语音研究中一个重要且经常被忽视的组成部分。有证据表明，同时使用的不同记录设备之间的差异有时可能大于发音人之间的差异(Vogel et al., 2014)。如果硬件不能在实验室内、被试间或跨适应症的研究中得到协调，该领域将难以对研究的准确性和它们所描述的特征做出具体的假设。这些限制给那些寻求利用历史记录或结合来自其他中心的数据的群体带来了一个重大的后勤问题。然而，这些限制在很大程度上局限于为进行声学分析而进行的录音，而不一定是为临床医生和科学家使用语音记录进行基于听众的知觉判断。这些假设提出了硬件选择和不同配置在研究和临床中发挥的作用的重要问题。当考虑最佳的语音采集设备时，搞明白一些关于录音的关键问题是有有益的：

收集语音样本的目的是什么？（例如，基于听者的判断、语言抽样、广泛的声学特征或细粒度分析）
在哪里录音？（例如，在诊所，在现场，在家里）
预算是多少？（例如，团队是否需要单独的设备，测试是否需要集中进行？）
操作者的专业水平如何？（例如要求即插即用，而不是复杂的组件配置）

硬件选择在具体应用中并没有建立起统一标准。总有一些实际的限制，使我们无法组成“最佳”的硬件配置，比如经费限制，或是专业硬件知识不足。

记录设备

易于使用、相对便宜的录音设备，如智能手机的吸引力是显而易见的。然而，它们的使用有一些注意事项，这限制了它们在一些语音科学研究中更广泛的应用。例如，麦克风的质量，通常决定了语音信号的整体质量，这些将在下一节中进行讨论。文件类型（压缩方法）（例如有损压缩）、采样率、耐久性和存储容量也在其效用中起着重要作用。表18.1描述了原型硬件配置的质量、便携性、复杂性、成本和局限性。

用户想要选择分析任何声学测量，不受预算限制，不需要设备便携，并获得用户专业知识，应该继续应用当前的黄金标准配置(Vogel&Morgan，2009)。具体地说，带有独立硬盘记录机的配置、衰减输入信号的独立混频器和与屏蔽室或声音处理室中的高质量麦克风相结合，具有提供适合任何目的的高质量信号的能力。

麦克风

所有的语音样本都使用麦克风记录下来。录音的质量和可靠性受到其规范的很大影响（详见表18.2）。为了真实采集录音，需要准确采集信号的核心特征，包括基频(f0)、音质（声音频谱）和通过声压级测量的压力振幅。对于频率，麦克风响应的范围应该足够宽，以捕捉完整的声谱，从最低到最高的感兴趣的频率。理想情况下，麦克风的低频限制应低于最低语音频率（∼50Hz），并且麦克风的频率上限应高于感兴趣的最高频率（最低8000Hz）。麦克风的频率响应应为“平”(变化小于2dB)(Svec，J.G.，&Granqvist，S.，2010)。

麦克风的指向性很重要。全指向麦克风对声音有相同的灵敏度响应，无论声音来自哪里，并且非常适合录制对话。相反，指向性麦克风对声音的反应则不同这取决于声源的方向。麦克风方向性最常见的例子是心型极性模式，它优化了直接来自麦克风前方的声音信号，同时最小化来自其他方向的信号。指向性麦克风非常适合捕捉语音/声音，因为它们可以抑制任何背景或环境噪音。但是，在使用频率响应问题时，应该考虑到一些频率响应问题。定向麦克风对压力梯度很敏感，压力梯度与空气颗粒速度成正比，而不是声压本身。当麦克风靠近嘴时，较低的频率会不成比例地提高，这就是这样一种效应。当将麦克风放在扬声器嘴附近时，近讲效应（也译作“邻近效应”）是很重要的：太近信号会扭曲（特别是低频率和风噪），太远信号会很弱。

麦克风与声源（比如嘴巴）的定位和接近程度是很重要的。建议遵守制造商的要求，因为他们可以提供关于麦克风的最佳位置和方向的信息。如果制造商没有指定最佳声音信号所需的麦克风到嘴巴的距离，建议最小距离为5厘米（∼2英寸）。如果指向性麦克风要用于嗓音和语音的频谱测量，麦克风规范应包含关于频率响应平坦的距离的信息，并且应在该距离上采集语音样本。

麦克风的噪音水平是它们组成的另一个显著的组成部分。麦克风的噪音水平（以及本章后期讨论的环境噪声）应显著低于记录中预期的最轻柔的语音水平（the softest phonation）。建议麦克风噪声水平至少比声音信号的振幅低15dB。理想情况下，麦克风不应受到高振幅失真或削波的限制(Svec&Granqist，2010)。

麦克风的最佳类型和配置取决于其预期的用途。一些麦克风经过高度校准，容易损坏，可能不适合用于幼儿或经常活动的发音人。头戴式麦克风可能不适合敏感人群。对于单人场景录音，可以通过使用头戴的单向或心型指向麦克风或颈挂麦克风来实现保持稳定口腔到麦克风距离的设置，位于距离口腔约5-10厘米的距离（除非制造商特别规定）。麦克风本身应该有一个平坦的频率响应，内部噪音水平至少比最柔和的声音低15dB，最高水平的动态范围应该高于最响亮的声音水平（以避免过载或削波）(Patel, Awan, BarkmeierKraemer, Courey, Deliyski, Eadie, … Hillman, 2018; Švec & Granqvist, 2010)。对于想了解自己麦克风的本质和保真度的研究者，可以考虑的以下几个步骤：

比较使用了高质量的参数已知的设备上同时采集的电子声音（elec-tronic sounds）和不同的嗓音，并且要保证测量距离相同。
测试不同的嗓音类型（如有非周期性发声障碍的男性、女性、儿童）很重要，因为信号质量本身因发音人而异，麦克风准确捕捉信号的性能也是如此。
在不同的录音环境（如隔音亭、诊所测试室）中测试硬件，将提供有关麦克风能力的数据，以保持足够的信噪比。

麦克风性能的其他组件也可以进行研究，包括频率响应(通过绘制与采集信号的频率相对应的估计声压级dB)、功率谱密度和近讲效应。例如，有一些研究已经从经验上比较过不同的麦克风(见Parsa, Jamieson, & Pretty, 2001; Patel, Awan, Barkmeier-Kraemer, Courey,Deliyski, Eadie, Hillman, 2018; Švec & Granqvist, 2010; Titze & Winholtz, 1993; Vogel & Maruff, 2008)。由于麦克风规格和使用方式的高度可变性，应该在研究方法中明确报告所使用的麦克风的相关参数。

模数转换和文件格式

采样和量化是模数（A-D）转换的重要组成部分。记录的采样率（每秒采样数）和量化级别（离散的声振幅级别数）决定了捕获了多少信号（Kellogg，1967）。一般认为采样率越高越好，但最优的采样率和量化精度取决于最小要求。奈奎斯特定理(Nyquist，2002)可以作为个人确定其记录的最佳采样率的指导原则。该原则规定，采样频率应该至少是感兴趣的频率的两倍。如果我们考虑到人类语言的大多数有趣成分都在前10个kHz内，建议使用的最小采样率为22.05kHz。最常见的采样率包括44.1、22.05、11.025、32、24和16kHz。

实际上，模数转换一般通过计算机自带的声卡，但最好是用外部模数转换设备（音频接口或外部声卡），通过USB或其他端口连接到计算机 (Patel, Awan, Barkmeier-Kraemer, Courey, Deliyski, Eadie, & Hillman, 2018)。在选择合适的外部声卡时，最低规格包括：大于44.1kHz的采样率，最低分辨率为16位（首选24位），并且与麦克风规格类似——比最安静的声音低至少10dB，以及可调增益，以确保最响亮的声音能够在不过载或削波的情况下被捕获(Patel, Awan, Barkmeier-Kraemer, Courey, Deliyski, Eadie, & Hillman, 2018)。

数据如何存储正逐渐成为语音研究中的一个小问题。我们现在可以访问一个似乎是无限的存储容量，这意味着我们几乎不需要以有损的压缩格式保存文件（从而缩小每个文件的大小）。理想情况下，文件应该以其未压缩的脉冲码调制(PCM)格式存储，以保持捕获信号的完整性。PCM是CD中使用的标准音频文件格式（采样率为44.1kHz和16位量化精度）。存储这些未压缩信息的文件类型的示例有：RIFF（例如.avi, .wav）)和AIFF（例如.aif）。如果文件是被压缩的（如.MP3压缩格式）信号质量的损失将导致声学分析结果的稳健性/有效性/可靠性的变化(Vogel&Morgan，2009)。虽然MP3文件比.wav文件使用更少的空间来表示录音，但为了减少文件的大小，一些音频细节丢失了。因此，尽管音频听起来非常类似于一个.wav文件，信号的质量已经显著降低。因此，目前建议语音文件以PCM格式存储，以避免与数据分析和信号质量相关的问题。

上一篇：脑与类脑智能基础转化与应用研究重大科技专项—复旦大学神经科技创新论坛下一篇：多模态语义加工中的动态环路机制

最热资讯

热门标签