两个人肯定是靠一块互相照应的文字转WAV音频