毕竟系统要将正在发生的事情变成语句需要时间文字转WAV音频