动机、参考资料、涉及内容

参考资料

  • 台湾大学李琳山老师的两门课程:《数字语音处理》、《数字信号处理》
  • 西北工业大学课程:《语音识别从入门到精通》

涉及内容

  • 参考资料中关于传统语音识别方法的全部内容

不涉及内容

  • kaldi

概述

本博客主要参考台湾大学李琳山老师的两门课程:《数字语音处理》、《数字信号处理》

声音是一个一维的信号(时间序列),根据前人的研究,将其处理为一个 D 维的时间序列能更好地描述声音信号。另一方面,从文本的角度看待人发出的声音,声音是由基本单位构成的,而这些基本单位将组成一个一个的词。HMM-GMM 做语音识别的思路是,为每个声音的基本单位建立一个 HMM-GMM 模型。声音生成的过程为:每个基本单位的声音信号一小段 D 维的时间序列。

HMM

声学模型

人发出声音的过程为:由肺部产生一股一股的“气”,经由唇齿舌的作用下,产生声音。

附录 A:傅里叶变换

A.1 信号(待补充)

离散情形下,如下信号被称为激冲信号:

(1)δ(n)={1n=10others

平行地,连续情形下,如下信号被称为激冲信号

A.2 线性时不变系统

在信号理论中,一个“系统”指的是输入一个信号,输出也是一个信号的东西。而线性时不变系统指的是满足如下条件的系统:

离散情况(信号的定义域为整数域 Z,值域为复数域 C):

  • 对于任意的 kZ 以及任意的信号 x(n),假定该系统将信号 x(n) 变换至 y(n),那么该系统会将 x~(n):=x(nk) 变换到 y~(n):=y(nk)
  • 对于任意的信号 x1(n),x2(n),假定该系统会将其分别变换至 y1(n),y2(n)。那么对于任意的实数(复数) a1,a2,该系统会将 x~(n):=a1x1(n)+a2x2(n) 变换到 y~(n):=a1y2(n)+a2y2(n)

连续情况(信号的定义域为实数域 R,值域为复数域 C):

  • 对于任意的 t0R 以及任意的信号 x(t),假定该系统将信号 x(t) 变换至 y(t),那么该系统会将 x~(t):=x(tt0) 变换到 y~(t):=y(tt0)
  • 对于任意的信号 x1(t),x2(t),假定该系统会将其分别变换至 y1(t),y2(t)。那么对于任意的实数(复数) a1,a2,该系统会将 x~(t):=a1x1(t)+a2x2(t) 变换到 y~(t):=a1y2(t)+a2y2(t)

可以证明,线性时不变系统一定为下述形式:

对于离散情况,系统对于 δ(n) 的输出假设为 h(n),那么对于任意的信号 x(n),输出信号为: y(n)=k=x(k)h(nk)=xh

上述 xh 被称为离散卷积。

对于连续情况,系统对于 δ(t) 的输出假设为 h(t),那么对于任意的信号 x(t),输出信号为: y(t)=x(τ)h(tτ)dτ=xh 上述 xh 被称为连续卷积。

对于线性时不变系统而言,如下信号是特别的:

离散情形下,对于任意的 zC

(2)x(n)=zn

其响应函数为: y(n)=k=x(nk)h(k)=k=znkh(k)=znk=zkh(k):=H(z)x(n)

即上述形式的输入信号为“特征”信号,即输出信号与输入信号只差一个常数倍

连续情形下,对于任意的 sC

(3)x(t)=est

其响应函数为:

(4)y(t)=x(tτ)h(τ)dτ=es(tτ)h(τ)dτ=x(t)esτh(τ)dτ:=H(s)x(t)

A.3 连续周期信号的傅里叶级数

A.4 离散周期信号的傅里叶级数

A.5 连续信号的傅里叶变换

A.6 离散信号的傅里叶变换

###

附录 B:EM 算法

附录 C:CART 决策树