虽然使用了大量的模型和实景来拍摄文字转WAV音频