他必须尽量支撑文字转WAV音频