构造一个最简单的社会模型就明白了文字转WAV音频