很难通过对人的控制去实现文字转WAV音频