结合已经拍过部分占总镜头数量的比重文字转WAV音频