是从摇晃和模糊开始第一个镜头的文字转WAV音频