一种是双方都有身份且身份相差无几的情况下文字转WAV音频