肯定要使用模型拍摄文字转WAV音频