双方的图像将会实时传送文字转WAV音频