最多也只是关注一下他们的分数文字转WAV音频