这只是一种理想状态下的试验文字转WAV音频