如果第一目标难以捕捉文字转WAV音频