然后因为两个世界的时间差文字转WAV音频