他必须将指令说的明明白白文字转WAV音频