他们大概会用不提高交换代价为条件文字转WAV音频