却没法用系统性的理论表达文字转WAV音频