其实他们仍是潜在的文字转WAV音频