但表面上的确是独立的文字转WAV音频