所以我们只能挖取亮点文字转WAV音频