显然前后两种选择是两个明显的对比文字转WAV音频