很难保持自身状态以及对影像记忆的连续性文字转WAV音频