所以还算得上是认识文字转WAV音频