那个时候就完全是依靠实力说话文字转WAV音频