观众出现了明显的分层文字转WAV音频