而且因为有长篇的框架在文字转WAV音频