我们反复推演发现文字转WAV音频