前者不比后者专注文字转WAV音频