第三种是建立在前两种的推测基础上文字转WAV音频