组成的是一个注重于机动性的文字转WAV音频