其核心是在各国文字转WAV音频