以上面的理论来推的话文字转WAV音频