因为只有这样才能显示他们话语的可信度文字转WAV音频