彼此之间的表现差异好像有那么一些大文字转WAV音频