同样场景的戏都是并在一起拍的文字转WAV音频