毕竟在这里是不可能进行精确人口统计的文字转WAV音频