现在的监控是实时的文字转WAV音频