大概两三年就能突破至外景文字转WAV音频