只能通过体型和力量弥补文字转WAV音频