共有四个边域文字转WAV音频