最终得到这样一段残缺的话语文字转WAV音频