因为从衍生者的视角观察文字转WAV音频