主流语音识别技术（语音识别引擎Wenet系列四）

剩一身傲气 2022-10-22 10:55:28

收藏赞分享

第一章节可参考

● 第1节: 端到端语音识别基础

CTC目标函数

Attention-based Encoder Decoder

联合建模

神经网络类型

流式语音识别

● 第2节: Wenet中的神经网络设计与实现

Subsampling网络

Encoder Block

模型定义

创建模型

前向计算

其他接口

模型入口 ASRModel

Encoder网络

Attention based Decoder网络

CTC Loss

Attention based Decoder Loss

网络的完整结构

● 第3节: 进阶话题:Mask

Subsampling中的mask

Conformer Block中的Conv的mask

MultiHeadedAttention Module的Mask实现

Chunk-based mask

处理Padding对Loss的影响

处理模型输入Padding

问题1:Batch Padding

问题2: 自回归

问题3: Chunk-Based Model

Encoder中的mask

Decoder中的mask

本文讲解第四章

● 第4节: 进阶话题:Cache

Runtime流式解码

Python流式解码

BaseEncoder.forward_chunk()分析

offset

subsampling内部

subsampling_cache

elayers_output_cache

conformer_cnn_cache

进阶话题:Cache

标准的forward是整个序列进行计算，但是在流式推断时，需要chunk级别的forward，因此需要引入cache的概念，即当前chunk的进行前向计算时，需要拿到上次前向的一些结果作为输入。

什么是cache？

对于流式推断，输入是一个个chunk的到来，对第i个chunk，当计算第k层网络的输出时，由于网络结构存在对左侧上下文的依赖，需要依赖第k-1层网络里在i之前的一些chunks的输出。如果对于当前到来chunk，将其和依赖的chunk序列（比如10层self-attention层，每层依赖左侧4个chunk，则累积起来需要依赖左侧40个chunk）拼起来作为网络输入进行前向，其计算量会比较大。对于那些已经计算过的chunk，可以将那些在计算下一个chunk的输出时需要的中间量保存下来，从而减少重复计算。这种方式就叫cache。

另外，wenet的网络在设计时，对于因果卷积和self-attention的左侧上下文都使用有限长度，因此无论序列多长，每次cache的大小是不变的（不增长）。

仅仅encoder部分涉及chunk计算时的cache。

● 对于CTC decoder，由于是线性层，不需要cache。

● 对于AED decoder，是在计算完整个序列的encoder输出后进行rescoring，不涉及chunk。

Runtime流式解码

asr_model.py中的forward_encoder_chunk()通过jit导出，用于C runtime，其内部使用了encoder.py中的forward_chunk()函数。

主流语音识别技术（语音识别引擎Wenet系列四）(1)

Python流式解码

如果设置simulate_streaming为True，则会模拟runtime流时解码的过程，将数据分成chunk，依次进行前向计算。该方法的结果，和送入整个序列通过mask进行流式模拟的结果应该是一致的。

主流语音识别技术（语音识别引擎Wenet系列四）(2)

forward_chunk_by_chunk()的内部也是使用的forward_chunk()函数。

BaseEncoder.forward_chunk()分析

xs是当前的chunk输入，由于对于单个chunk的前向计算，需要之前的chunk的计算得到的信息，因此这里需要传入相关的三个cache信息。

主流语音识别技术（语音识别引擎Wenet系列四）(3)

● subsampling_cache:torch.Tensorsubsampling的输出的cache。即第一个conformer block的输入。

● elayers_output_cache:List[torch.Tensor]第1个到最后1个conformer block的输出的cache。也就是第2个conformer block的输入和CTC层的输入。

● conformer_cnn_cache:List[torch.Tensor]conformer block里的conv层的左侧依赖的输入cache。

cache的大小

● subsampling_cache和elayers_output_cache的大小由self-attention是对左侧的依赖长度required_cache_size决定。decoding_chunk_size是解码帧级别的chunk大小, num_decoding_left_chunks是self-attention依赖的左侧chunk数。

主流语音识别技术（语音识别引擎Wenet系列四）(4)