我估计在第一阶段的最后关头文字转WAV音频