需要花费大量的时间去反复经历失败文字转WAV音频