似乎是为了满足他们的文字转WAV音频