进行最后收尾场景的拍摄文字转WAV音频