只是手上的动作又稍微加重了一分文字转WAV音频