实际上这也代表了大多数文字转WAV音频