我们也只能凭借他人的口述而先入为主地做出判断文字转WAV音频