他最多也只有两成把握文字转WAV音频