从他们所处的位置可以看来文字转WAV音频