是加了滤镜的长镜头文字转WAV音频