就要为整个族群考虑文字转WAV音频