但是他们却是主动分开文字转WAV音频