进行了一定程度的融合叠加文字转WAV音频