动机、参考资料、涉及内容

参考资料:

  • 人类语言处理2020-李宏毅(语音识别部分、HMM based不详细做记录)

涉及内容

  • 可能会增加最新(2020年之后)的一些端到端技术(不确定记不记得来)

ASR的输入与输出

语音识别(Automatic Speech Recognition)是指将语音信号转为文字。在这个任务中,输入为语音信号,其呈现形式为一个一维的时间序列,存在一系列的声音信号前处理方式将其转换为一个 $(T, D)$ 的多维时间序列信号。在输出端,也存在多种选择:phoneme/grapheme/word/morpheme,而这些概念在不同的语种中可能有的适用有的不适用。

声音信号及其前处理 MFCC 的计算, 参考[博客](https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html)
语音识别的输出

Part 1:端到端语音识别

Part 2:基于HMM的方法

LAS

LAS 是 xx 年的一篇论文,其结构上几乎就是 seq-to-seq model。

seq-to-seq model 举一个用 seq-to-seq 模型做翻译模型的例子:任务为将 A 语言翻译为 B 语言,以下用大写字母表示 A 语言的 token,用小写字母表示 B 语言的 token 假定词表分别为:${A_1,...,A_m,,}$,${B_1,...,B_n,,}$,现在有一个输入序列为:$(A_3, A_100, A_1)$,期望得到输出序列。具体计算过程为: 首先将 demo: 假定 A 语言的词表为大写字母A-F,B 语言为小写字母a-f。真实的翻译规则为: - 若带翻译句子首尾两个字符为同一个字符,则翻译过程将此字符忽略,且此过程往复进行 - 给定如下词表具有对应关系 ``` AB -> bc ... DE -> ef A -> a ... F -> f ``` - 若出现如下词表则发生倒装 ``` BC DE ``` - 其余情况均按大小写对应关系进行翻译 </details> ## CTC ## RNN-T