几乎完全不考虑其它的拍摄方式和拍摄思路文字转WAV音频