其需求是长期而稳定的文字转WAV音频