主要是双方面都回避了文字转WAV音频