如果只是单纯的依靠个体的能力文字转WAV音频