如果我们把几个画面都定格下来文字转WAV音频