我始终认为表演捕捉和演绎真人角色是一样的文字转WAV音频