就是在区别不同粒子的前提下文字转WAV音频