他们追求的一直都是向上文字转WAV音频