那么我现在特别好奇他用了多少套套文字转WAV音频