但是这个过程必须由他们来完成文字转WAV音频