另一个则是强化感知文字转WAV音频