大量的模型也运用到了拍摄中文字转WAV音频