所以梓箐只能根据当前发生的事情与画面中的事情相对照文字转WAV音频