第二次的效果最少会折损一半以上文字转WAV音频