为了防止两人同时出现的场面文字转WAV音频