双方看来是熟识文字转WAV音频