系统的目标已经很明确了文字转WAV音频