后者的难度显然要低一些文字转WAV音频