这个推断的结果或者干脆就是猜出来的结果只能是作为参考文字转WAV音频