实际上是为了便于你理解文字转WAV音频