我会根据他们每一步的表现来选文字转WAV音频