但记忆和常识确是构建一个完整的文字转WAV音频