如果把两件事分开来做的话显然会花费两倍甚至更多的时间文字转WAV音频