每一个巡视点都会经过文字转WAV音频