我认为应当以才能来划分文字转WAV音频