是针对人类而设的文字转WAV音频