这个答案近乎于标准文字转WAV音频