肯定是要有一个能够罩着他们的人的文字转WAV音频