(P1) DLHLP2020学习笔记1——语音识别
动机、参考资料、涉及内容
参考资料:
- 人类语言处理2020-李宏毅(语音识别部分、HMM based不详细做记录)
涉及内容
- 可能会增加最新(2020年之后)的一些端到端技术(不确定记不记得来)
ASR的输入与输出
语音识别(Automatic Speech Recognition)是指将语音信号转为文字。在这个任务中,输入为语音信号,其呈现形式为一个一维的时间序列,存在一系列的声音信号前处理方式将其转换为一个 $(T, D)$ 的多维时间序列信号。在输出端,也存在多种选择:phoneme/grapheme/word/morpheme,而这些概念在不同的语种中可能有的适用有的不适用。
声音信号及其前处理 MFCC 的计算, 参考[博客](https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html)
语音识别的输出
Part 1:端到端语音识别
Part 2:基于HMM的方法
LAS
LAS 是 xx 年的一篇论文,其结构上几乎就是 seq-to-seq model。