他注重的是未来文字转WAV音频