他们完全不需要去考虑法则融合文字转WAV音频