但在模拟之前需要借助模型文字转WAV音频