声音是从正房发出来的文字转WAV音频