刚开始绝对是他们主动的文字转WAV音频