第三种方案虽然节省了本金文字转WAV音频