主持人和现场观众都以为他们是为了统计出详细准确的结果文字转WAV音频