所以他们是没有参考数据的文字转WAV音频