这是基于真实环境跟所处虚拟环境的整合计算文字转WAV音频