诗歌导入的过渡语(奇怪的声音增加了)

让我们先来做一道听写题。放心,中文的那种!

仔细听,默写出该古诗:

什么?刚听完的你肯定是满头雾水,确定没放错碟?碟是没放错,我只是动了点手脚。看图说话,你就应该明白我动了什么手脚。

诗歌导入的过渡语(奇怪的声音增加了)(1)

原始波形

诗歌导入的过渡语(奇怪的声音增加了)(2)

更改波形

猜出来了吗?没错!我仅仅是把原片段的波形完全反向播放了,听起来中文朗诵的古诗变成了一段奇怪的声音。那么,我们原来的古诗是什么呢?

没想到吧!如此熟悉的一段古诗,经过小小的操作之后,竟然变成了我们完全不熟悉的味道,与此类似的我们还可以将原声音反相操作,即声音的波形上下颠倒。

诗歌导入的过渡语(奇怪的声音增加了)(3)

反相波形

什么?听起来和原始的竟没有什么差别。事情开始变得有点意思了,为了搞清楚声音这个淘气鬼,我们得先了解一下声音波形。

诗歌导入的过渡语(奇怪的声音增加了)(4)

我们都知道声音的产生是由于发声体振动,带动周围介质振动形成的机械波,在气体和液体中它以纵波的形式存在,而在固体中伴随有横波的出现。对于我们日常接触到的,自然就是空气中的声波,它导致空气形成疏密相间的排列,如果对某一点进行压力测量,就可以得到时间为横轴,压力为纵轴的一维图像。

诗歌导入的过渡语(奇怪的声音增加了)(5)

空气疏密相间的排列

诗歌导入的过渡语(奇怪的声音增加了)(6)

声波的一维图像

采样率和位深:自然界的声波是模拟信号,对于连续变化的波形,计算机记录的时候必须时间上间隔采样,每个采样点计算机将压力信号转化为电信号,进行数模转化后,用于记录振幅的二进制比特位数叫做位深。较高的位深度可提供更多可能的振幅值,产生更大的动态范围、更低的噪声基准和更高的保真度。

诗歌导入的过渡语(奇怪的声音增加了)(7)

高采样率更好重现原始波形

采样率则表示每秒的数字采样的数目。可以想见,采样率越高,数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。为了重现给定频率,采样率必须至少是该频率的两倍。例如,CD 的采样率为每秒 44,100 个采样,因此可重现最高为 22,050 Hz 的频率,此频率刚好超过人类的听力极限 20,000 Hz。

声音频谱:世界上声音如此美妙复杂,就是因为它们不是同一频率、振幅的重复,而是不同频率、振幅,甚至相位的叠加,我们以上讨论的波形图表达的是声音在时间(振幅)上的特性,有没有方法能让我们看到声音的频率特性呢?你一定想到了一个人的名字——傅里叶。傅里叶变换正是将时间域的分布,转化为频率域的分布,即我们看到的复杂波形可以看做是无穷多不同频率、振幅的简谐波的合成结果。

声音的帧:想要得到声音的频谱,我们首先要对音频切片,通过傅里叶变换对一小段时间内声波的分析,这是有效并且有意义的。这就是声音的帧的概念,它一般是ms级别的片段。语音识别领域,语音的基本单位是音素,它表示语音的基本发声单元,在汉语里可以理解成声母韵母。音素是由数帧组成的,不同音素进而组成单词,完成识别。所以对帧的声音模型分析,就至关重要。已编码的音频文件,帧的大小一般规定为1024个采样点的时间间隔,对于44100Hz的采样文件,它的时间长度为:1024*1000/44100ms,大约为23.2ms。

如果我们把一整段音频的帧的频谱按照横轴展开,就可以得到语谱图(spectrogram),它可以叫做声音的时频谱。它的横轴代表时间,纵轴代表频率大小,亮暗代表振幅大小。

诗歌导入的过渡语(奇怪的声音增加了)(8)

诗歌导入的过渡语(奇怪的声音增加了)(9)

贝多芬的《致爱丽丝》的某一帧的频谱和时频谱。

在我们解决开头的问题前,我们还是得先明确一件事情,那就是一段音频听上去一样意味着什么?直觉告诉我们如果两段音频的波形相近,那它们听起来应该是接近的。很幸运我们的直觉是对的,对一段波形上下颠倒的反相,没有改变这段声音。这基于自然产生的声音波形一个很有趣的特点,那就是大尺度上,声音的波形是对称分布的,这是声音起源于物体往复振动的结果。

然而,对于波形不一致的声音,它们也有可能听起来一样。波形并不能作为判断声音一致的黄金法则。(关于这一点可以参考资料3)

诗歌导入的过渡语(奇怪的声音增加了)(10)

声音波形大尺度上对称

波形不靠谱,看来我们得从频谱上想想点子。我们已经提到了帧的概念,想一想两段声音听起来一致,它应该意味着,每一帧的听感是一致的,并且帧的排列顺序是一致的。对于每一帧来说,频谱有振幅和相位,参考3告诉我们人耳对相位是不敏感的,在满足相位不敏感的情况下,决定一致与否的就是每一帧的振幅频率谱和帧的排列顺序,哎,这不就是语谱图嘛。看来语谱图的一致和听感一致有着很大的关系。对于声音的反向和反相操作,我们可以试着去解释。

对过程感兴趣的可以阅读附言,这里给出结论:

  1. 声波反向操作后,对应的语谱图也是反向的。听起来自然会奇怪。

  2. 声波反相操作后,对应的频谱整体相位移动了180度,并未改变语谱图。人耳对于这180度相移是不敏感的,所以听起来是一致的。

对声音采样和频谱有了简单了解后,我们甚至可以做一些语音加密的小伎俩。比如对于双通道的音频文件,除去文件头信息,它按左右左右顺序存入的是波形采样值,如果我们对原采样值进行变换(不能超过位深),这就是一种简单的加密编码。

当然,倒放模仿也许是一种更轻松愉快的游戏,录制一段音频,然后反向它。邀请别人去模仿反向后的音频,二次反向后,不妨看他能不能猜出原始语音呢?不说了,我要去捉弄别人了!

参考:

1.部分图片来源于网络

2.Adobe 用户指南

3.https://zhuanlan.zhihu.com/p/33554898

4.https://zhuanlan.zhihu.com/p/71582795

5.https://zhuanlan.zhihu.com/p/66117227

附言

从傅里叶变换的角度我们来解释一下反向和反相后,对语谱图和听感的影响。实际上,声音处理的傅里叶变换采取的是非周期的离散傅里叶变换(DFT)。通常用快速傅里叶变换(FFT)计算。为了说明,我们简化成了连续傅里叶变换。(这里仅仅从整体变换出发,结论是可靠的)对于原声波,假设有变换:

诗歌导入的过渡语(奇怪的声音增加了)(11)

1.对声波反向播放,对应的时频谱在时间上反向并不奇怪。我们需要说明的是,对于每一帧而言,它的幅度频谱是完全确定的。时间反向,影响的是傅里叶变换中正负频率的对应像函数,它们对调了。对最终所求振幅频谱是没有影响的。(某一频率的振幅是正负频率像函数相加的结果,在DFT的情况下,是对称频率分量的相加,参考4、5有相应的解释)。相位频谱因为需要将反向后频谱平移到时间零点,根据时移特性,会移动。总而言之,每一帧的(幅度)频谱未变化,整体时间反向,因而时频谱呈现了反向的关系。

诗歌导入的过渡语(奇怪的声音增加了)(12)

诗歌导入的过渡语(奇怪的声音增加了)(13)

诗歌导入的过渡语(奇怪的声音增加了)(14)

诗歌导入的过渡语(奇怪的声音增加了)(15)

原频谱

诗歌导入的过渡语(奇怪的声音增加了)(16)

反向频谱(已经水平镜像)

2.对声波反相的结果是:

诗歌导入的过渡语(奇怪的声音增加了)(17)

反相变换后所有频率像函数的相位移动了180度,语谱图是振幅频率谱,所以语谱图是不变的。由于人耳对于整体180度相位改变是不敏感的(参考3),所以导致听起来声音也是一致的。在人耳对帧的相位不敏感的情况下,语谱图一致和听感一致是统一的。

原频谱

诗歌导入的过渡语(奇怪的声音增加了)(18)

反相频谱

原标题:奇怪的声音增加了

来源:中科院高能所

编辑:米老猫

↓ 点击标题即可查看 ↓

1. 为什么不倒翁小姐姐能摇一晚上不倒?

2. 如果在家考,作弊就很容易吗?

3. 「我给你 37 美元,求求你把这桶油搬走吧」

4. 老师隔离后用射击游戏上网课,真不怕学生看完更想玩游戏?

5. 被五步蛇咬,走几步才最安全?

6. 我们从不骗你,除非……你不懂物理

7. 为什么菜油倒海上能救命?这道题美国学霸国父也不会做

8. 为什么有 32 个关卡的超级马里奥兄弟只要 64KB?

9. 十大物理效应,一次看个够!

10. 方程 E = mc² 中,m 的能量从何而来?

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页