他觉得换种说法更恰当――文字转WAV音频