那么只能有一个说明文字转WAV音频