听觉效果与声音的强弱(声音与听觉系列知识)
上一次为大家讲解了人耳的构造与听觉之间的关系,本期将继续沿着知识图谱的脉络,为大家介绍声音的几个基本术语:音高(Pitch)、响度(Loudness)和音色(Timbre)。
1.音高
几乎所有的声音特征都可以用音高、响度和音色来描述。
简单来说:Pitch = 声音的频率。
例如,十二平均律里的中央C的频率为261.6Hz。
实际上,人感知到的音高是人耳对频率的响应。上一期(关注本公众号可以找到上一期的内容)我们讲解过耳蜗对音高的解析,即部位学说(Place theory):耳蜗本身为一整体的共振器,每一个音高在基底膜上具有一定的共振部位,音高的区别取决于基底膜的最大振动部位,低音引起顶部基底膜的较长纤维的振动,高音引起底部基底膜的较短纤维的振动。如下图所示。
部位学说模型可以很好的解释感知到的两个不同音调之间的相对音高,但不能解释绝对音感现象(Perfect Pitch)。
绝对音感是指不需借助标准音高器械(例如乐器)就能准确识别或唱出音符的能力。大多数人都只能分辨出两个音高之间的区别(音程),但是分不出某个独立的音调的音高。
有学者曾经提出,只有不到0.01%的人具有绝对音感,而超过98%的人都能在没有色彩标准的情况下准确识别颜色。这样的数据对比,是不是更让人觉得声品质很玄呢?
尽管一般情况下我们可以简单的认为音高就是频率,但有些时候,即使听到的是一个恒定频率的声音,我们的耳朵也会感觉声音的音高在变化。比如:对于一个强度缓慢增加的高频声音(>2kHz),我们听上去会觉得它的音高在上升;如果它的频率是低于2kHz的,同样是缓慢增加强度,我们却会感觉它的音高在下降。有学者做过实验:1个6kHz的纯音,强度从60上升到90分贝,人耳感知其音高上升30音分左右(在以后的系列知识中我们会介绍分贝、音分等概念);1个200Hz的纯音,强度从60上升到90分贝,人耳感知其音高下降20音分左右。大家可以试听下面两个音频,看是否有这种现象。万一,您就是0.01%里的有超能力的人呢?
关于响度,首先要大家明确的是,响度并不等于声音的强度。响度是一个主观感知相关的概念,描述的是人耳感知到的声音的大小,虽然它与声音的强度强相关,但是不能在二者之间划等号。人耳感知到的响度跟声音里包含的频率成分有关系,如果频率能激起基底膜的共振,感知到的声音就大一些。这就是为什么等响度曲线是曲线而不是直线的原因了。
同时,我们使用分贝这个概念,也是因为人耳的生理结构。人耳对声音强度响应的倍数是10的幂,或者说是对数关系。用分贝来表述声音量级的真正原因你get到了吗?
有一个知名的经验法则告诉我们,如果我们要感知到响度变大了一倍,需要将原始声音的强度增加10倍。尽管这个经验法则被广泛应用,但是我们需要明确的是,这里讲的数值关系不是对每一个人、每种情况都是一定的,它是学者通过对大量的实验数据统计出来的一个概数。
为什么响度变大一倍,强度需要变大10倍呢?这个问题目前还没有标准答案,但表面上看起来它符合饱和效应(心理学概念)。即:人的神经系统会适应某一特定强度的刺激,一定时间后继续重复这种强度的刺激,只会使刺激效果越来越小;要维持最初的高水平刺激效果,须不断增强刺激物的刺激强度。
如果饱和效应对响度感知是成立的,那么就会引入一个新的问题:不同音高的声音是由基底膜上不同的神经细胞来感知的,也就意味着不同的频率成分叠加,人感知到的响度变化情况不一样。如下图所示。
如果一个声音已经存在,此时再引入另一个与它独立的、强度相等的声音时,人耳感知的响度变化会有两种结果:
- 当新加入的声音频率与原声音相差很近时,由于饱和效应的作用,人耳只会感觉声音稍微变大了一点点,如上图的A B;
- 当新加入的声音频率与原声音相差较远时,由于新的频率成分与原声音的频率成分被不同的神经细胞感知,饱和效应失效,人耳会感觉声音的响度变大了接近一倍,如上图的C D。
那么,这个原声音与新加入的声音的频率之间的距离的临界值是多少呢?这就需要引入临界频带(Critical Band)的概念了。
有学者研究发现,当声音频率低于200Hz时,临界频带宽度大约是90Hz,随着声音频率的升高,临界频带的宽度也会增大,如下图所示。
为了更真实的度量人耳听到声音的大小,我们后期会介绍方、宋(响度相关的单位),以及A、B、C计权(声学测试相关滤波器)。为了方便理解分贝与方之间的关系(或者叫做声音强度与响度之间的关系),大家可以研究一下下面这张图。
3.音色
音色在人耳辨别不同的声音时起了重要的作用,当声音的音高和响度都完全一样的时候,可以用音色来描述声音的特征。
音色主要由声音的谐波成分和动态特性(例如颤音、冲击和衰减包络)决定。下面,我们来讲讲这几个影响音色的物理量的概念。
3.1基频、谐波&泛音相信大家对谐波应该是不陌生的。对于持续的音调,最重要的是谐波成分。谐波的数量,以及它们之间的相对强度分布,对音色特性非常重要。
对于乐器发出的声音,有基频和泛音的概念。
基频是指所有谐波中最小的那个共振频率。不管是乐器还是机械机构、电子器件、或电磁器件,共振频率都是由振动物体的物理参数决定的。共振这个概念我们从初中物理课本上就能找到,就不再赘述了。谐波是指的基频的整数倍的频率成分。振动的弦、开放式圆柱形空气柱、圆锥形空气柱发出的声音都只包含基频和谐波。
对于弦,其基频可由下述公式计算得到,其中T为弦张力,m为弦质量,L为弦长度。
对于两端开口的圆柱形空气柱,两个开口端位置为声波的波腹位置(因为开口处连接着外界大气,不可能制造出很大的压力变化),圆柱的中间位置有一个节点。其基频的计算公式如下,其中Vsound为声速,L为圆柱体的长度。
对于圆锥形空气柱,其基频的计算公式与开放式圆柱形空气柱的一样。
如果将开放式圆柱形空气柱的一端封闭,它就只能发出奇数谐波了,如下图所示。封闭的一端被固定为波形的节点,开放的一端只能是波腹。
大家可以自己去脑补,哪些乐器符合上述几种不同的模型。猜一猜,笛子是两端开口的还是单端开口的呢?看了这几种模型,大家有没有豁然开朗的感觉呢?原来,没有一点振动噪声的理论基础,要玩好乐器是很困难的呢。
实际上,泛音包含与基频成整数倍的谐波成分和不成整数倍的声音成分。上面介绍了集中典型的生成整数倍谐波的物理模型,还有一些结构会发出不成整数倍的声音,我们把这些声音叫做非谐波泛音。不同形状的膜片,其泛音的形式是不一样的。
例如上图所示的矩形膜片,就可以发出诸如1.41,1.73,2.38这种非整数倍的泛音。
也许有同学会说从来没有见过矩形的膜片,比如鼓的蒙皮就是圆形的。稍安勿躁,我们先说矩形,是因为圆形膜片的振型更复杂。先上一张图,如下。
用一个三维的图来帮助大家理解,下图是圆形膜片的前4个振型。
圆形膜片有这么多振型,哪些是我们最想要的呢?下面以定音鼓为例,介绍首选振型的概念。对于定音鼓,振型11是频率最低的首选振型。其它首选振型依次为:21,31,41,51,61,如下图所示。
记振型11对应的频率为f0,其它振型的频率也用f0的倍数记录。可以推算出各个首选振型之间的音程(以后我们会介绍音程的概念)。同一个定音鼓,不同的演奏者敲出来的声音感觉不一样,有点好听,有的不好听。其中一个重要的原因是好的演奏者知道怎么激励出首选阵型。
从理论上来讲,圆形膜片的固有频率计算公式如下,其中T为膜张力(单位为N/m),sigma为密度(单位为kg/平方米),D为直径(单位为米)。
除了乐器的音色不同之外,ACOUTEC再小声的告诉大家一个秘密,我们之所以要规定拼音或者英语里26个字母有些叫做元音,有些叫做辅音,也是因为每个元音的谐波成分可以激起基底膜明显的不同部位的共振,人能很明显的区分它们。更深入的知识就不在这里展开了。
3.2冲击与衰减
上图为拨动吉他弦之后录下来的声音信号。拨这个动作让声音快速上升至最大幅值,这就是冲击特性。之后经过一段较长的时间,声音信号逐渐呈阶梯状减弱,这就是衰减特性。人耳对这种冲击和衰减是十分敏感的,所以可以用它们来描述声音的音色特征。
上图是用鼓棍敲击铙钹的声音信号。与吉他的声音信号相比,铙钹的冲击完成的时间更短,也就是说声音上升到最大幅值的速度更快。虽然二者衰减的速度相当,但由于吉他的频率更低一些,所以从波形中可以看出周期与周期之间的间隔,而观察铙钹的信号,信号点之间的间距很小。
3.3颤音(Vibrato / Tremolo)Vibrato和Tremolo两个单词都可以翻译为颤音,但二者实际上是有区别的。
Vibrato是指音调的音高周期性的变化。Tremolo是指音调的幅值或响度周期性的变化。所以,可以把vibrato叫做FM(频率调制,常称为调频),而tremolo叫做AM(幅度调制,常称为调幅)。不管是人声还是乐器的声音,这两种颤音都会出现。
上图是录制的一段女性持续发出’ee’的声音信号。我们可以明显的观察出幅值周期性变化,即tremolo。但听这一段声音,我们还可以用人耳辨别出它有频率的变化,即vibrato。这种tremolo和vibrato同时出现的情况是经常出现的。对这段录音进行数值分析可以发现,它的AM的周期大约为0.17秒,FM的频率为5.8Hz,中心频率为395Hz。进一步分析发现,当幅值处于高位时其频率为392Hz左右,当幅值处于低位的时候频率为399Hz,幅值变化范围为7dB。
有研究表明:每秒钟人声的音高变化会发生6-7次,同时伴随着相同频次的幅值变化,人声的颤音有助于将其与背景音乐的声音分开;笛子的颤音更像是纯粹的tremolo;长号的颤音偏纯粹的vibrato;小提琴和其他一些弦乐器的颤音接近于纯粹的vibrato。
3.4 人耳对音色识别的结论有学者曾经得出一些重要的结论,在这里跟大家共享一下:
- 人耳要分辨出一个音调的音色,至少需要60ms;
- 任何短于4ms的音调,都被归类为无音调敲击声;
- 对于中、高阶谐波,如果要感知到音色变化,至少需要有4dB的变化;
对于低阶谐波,如果要感知到音色变化,至少需要有10dB的变化。
4. 结束语
以上,就是本期为大家带来的基本知识,介绍了三个用于描述声音特性的参数:音高、响度和音色。
这三个参数都是人的主观感受,而影响人的主观感受的机理与人耳的结构有密切的关系,大家可以在本公众号的上一期文章中找到人耳结构的介绍。
好了,希望本期对大家了解声音的特征有帮助和启发。下一期,我们为大家介绍声音的测试。敬请关注。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com