几乎是重新设计一次文字转WAV音频