而且他们的目标都是里面文字转WAV音频