因此一整套的流程是完全可以定下来的文字转WAV音频