观众看到的是剪辑之后的镜头文字转WAV音频