所以他必须拿出最好的状态文字转WAV音频