前面的五个就是教学文字转WAV音频