也无法从刚才听到的只言片字判断出谈话的结果究竟是什么文字转WAV音频