捕捉着每一张面容文字转WAV音频