所以他希望再次降低难度文字转WAV音频