考虑到周围都是居民区文字转WAV音频