也就是说在最初一两轮可以选择避开某个特定的人文字转WAV音频