两个场景之间也通过相似构图文字转WAV音频