(DEAD) HMM-GMM Based ASR (Auto Speech Recogition)

动机、参考资料、涉及内容

参考资料

台湾大学李琳山老师的两门课程：《数字语音处理》、《数字信号处理》
西北工业大学课程：《语音识别从入门到精通》

涉及内容

参考资料中关于传统语音识别方法的全部内容

不涉及内容

kaldi

概述

本博客主要参考台湾大学李琳山老师的两门课程：《数字语音处理》、《数字信号处理》

声音是一个一维的信号（时间序列），根据前人的研究，将其处理为一个 $D$ 维的时间序列能更好地描述声音信号。另一方面，从文本的角度看待人发出的声音，声音是由基本单位构成的，而这些基本单位将组成一个一个的词。HMM-GMM 做语音识别的思路是，为每个声音的基本单位建立一个 HMM-GMM 模型。声音生成的过程为：每个基本单位的声音信号一小段 $D$ 维的时间序列。

HMM

声学模型

人发出声音的过程为：由肺部产生一股一股的“气”，经由唇齿舌的作用下，产生声音。

附录 A：傅里叶变换

A.1 信号（待补充）

离散情形下，如下信号被称为激冲信号：

\[\delta(n)=\left\{ \begin{aligned} 1&\quad n=1\\ 0&\quad others \end{aligned} \right.\]

平行地，连续情形下，如下信号被称为激冲信号

A.2 线性时不变系统

在信号理论中，一个“系统”指的是输入一个信号，输出也是一个信号的东西。而线性时不变系统指的是满足如下条件的系统：

离散情况（信号的定义域为整数域 $\mathbb{Z}$，值域为复数域 $\mathbb{C}$）：

对于任意的 $k\in\mathbb{Z}$ 以及任意的信号 $x(n)$，假定该系统将信号 $x(n)$ 变换至 $y(n)$，那么该系统会将 $\tilde{x}(n):=x(n-k)$ 变换到 $\tilde{y}(n):=y(n-k)$；
对于任意的信号 $x_1(n), x_2(n)$，假定该系统会将其分别变换至 $y_1(n), y_2(n)$。那么对于任意的实数(复数) $a_1, a_2$，该系统会将 $\tilde{x}(n):=a_1x_1(n)+a_2x_2(n)$ 变换到 $\tilde{y}(n):=a_1y_2(n)+a_2y_2(n)$

连续情况（信号的定义域为实数域 $\mathbb{R}$，值域为复数域 $\mathbb{C}$）：

对于任意的 $t_0\in\mathbb{R}$ 以及任意的信号 $x(t)$，假定该系统将信号 $x(t)$ 变换至 $y(t)$，那么该系统会将 $\tilde{x}(t):=x(t-t_0)$ 变换到 $\tilde{y}(t):=y(t-t_0)$；
对于任意的信号 $x_1(t), x_2(t)$，假定该系统会将其分别变换至 $y_1(t), y_2(t)$。那么对于任意的实数(复数) $a_1, a_2$，该系统会将 $\tilde{x}(t):=a_1x_1(t)+a_2x_2(t)$ 变换到 $\tilde{y}(t):=a_1y_2(t)+a_2y_2(t)$

可以证明，线性时不变系统一定为下述形式：

对于离散情况，系统对于 $\delta(n)$ 的输出假设为 $h(n)$，那么对于任意的信号 $x(n)$，输出信号为： $y(n)=\sum_{k=-\infty}^{\infty}{x(k)h(n-k)}=x*h$

上述 $x*h$ 被称为离散卷积。

对于连续情况，系统对于 $\delta(t)$ 的输出假设为 $h(t)$，那么对于任意的信号 $x(t)$，输出信号为： $y(t)=\int_{-\infty}^{\infty}{x(\tau)h(t-\tau)d\tau}=x*h$ 上述 $x*h$ 被称为连续卷积。

对于线性时不变系统而言，如下信号是特别的：

离散情形下，对于任意的 $z\in\mathbb{C}$：

\[x(n)=z^n\]

其响应函数为： $\begin{aligned} y(n)&=\sum_{k=-\infty}^{\infty}{x(n-k)h(k)}\\ &=\sum_{k=-\infty}^{\infty}{z^{n-k}h(k)}\\ &=z^n\sum_{k=-\infty}^{\infty}{z^{-k}h(k)}\\ &:=H(z)x(n) \end{aligned}$

即上述形式的输入信号为“特征”信号，即输出信号与输入信号只差一个常数倍

连续情形下，对于任意的 $s\in\mathbb{C}$，

\[x(t)=e^{st}\]

其响应函数为：

\[\begin{aligned} y(t)&=\int_{-\infty}^{\infty}{x(t-\tau)h(\tau)d\tau}\\ &=\int_{-\infty}^{\infty}{e^{s(t-\tau)}h(\tau)d\tau}\\ &=x(t)\int_{-\infty}^{\infty}{e^{-s\tau}h(\tau)d\tau}\\ &:=H(s)x(t) \end{aligned}\]

(DEAD) HMM-GMM Based ASR (Auto Speech Recogition)

动机、参考资料、涉及内容

概述

HMM

声学模型

附录 A：傅里叶变换

A.1 信号（待补充）

A.2 线性时不变系统

A.3 连续周期信号的傅里叶级数

A.4 离散周期信号的傅里叶级数

A.5 连续信号的傅里叶变换

A.6 离散信号的傅里叶变换

附录 B：EM 算法

附录 C：CART 决策树