首先他是视觉动物文字转WAV音频