所以他们的策略很简单文字转WAV音频