面对五人的控制和输出文字转WAV音频