那是因为他们有自己标准的一套法则文字转WAV音频