这是一个漫长的拍摄过程文字转WAV音频