但他们仍然要拍文字转WAV音频