而是会看对方的身份和反应文字转WAV音频