但事实的确是像他最后说的那样文字转WAV音频