最终的目标是用魔导人偶作为核心文字转WAV音频