这一部分的主要路线是寻找合适的根据地文字转WAV音频