并能通过语言将它引导出来文字转WAV音频