第一个就是传统的望闻问切文字转WAV音频