至少做出一个我们在考虑的姿态文字转WAV音频