实际上是一些点在不同时刻的位置文字转WAV音频