0%

Speech Analysis

语音是一种常见的信息交流方式,但是语音是非常多变的(相比于文本),语音包含了语言、方言、音调等信息,在提供了更多信息的同时也给分析加大了难度。如何正确分析语音是一项困难的工作。

0.1. 语音的表示

如下图所示,语音可以表示为振幅随时间的变化

再扩大一点,语音也可以看成是一系列基本发音单位(Phoneme)的集合

如果放大语音信号,我们可以看出来语音是由不同的音素组成的。不同的音素来源也是不同的。比如说wl是由声带的周期性振动产生的,所以被归类为浊音素。清类(unvoiced)和浊类(voiced)是基于声带振动对语音进行的广义分类。

1. 时频分析

通过短时傅里叶变换(STFT),我们可以计算语音的时频图,本质就是将一段语音分成很多小的帧(frame),然后对这一小段帧进行傅里叶变换。

那为什么要这样将语音分成比较小的帧呢?因为语音的时间特性变化非常快,是一种非平稳(简单来说就是无法预测)的信号,不能对此进行傅里叶变换。而在小的帧中,我们假设语音信号是平稳的,并且在帧内不会有太大变化

根据nyquist采样定理,我们能观察到的最大频率是采样率的一半

语音实验中的采样频率是48kHz,所以能观测到的就是24kHz

1.1. Trade-off

如何选择帧的大小是一个值得考虑的问题

  • 选择较小的帧,可以获得更好的时间分辨率,但是样本少导致傅里叶变换时其中包含了很少的频率分量
  • 选择较大的帧,时间频率较低,但是采样数较高,频率分辨率就高了