所以偏重的是防御文字转WAV音频