我们是按照正常的选角流程来的文字转WAV音频