他们把更多的时间都用在学习文字转WAV音频