而且要间隔好久才能够说一句话文字转WAV音频