这相当于是一个最终的评委会文字转WAV音频