还是可以在融合之前文字转WAV音频