实际上都是由他在管理文字转WAV音频