ai 自我进化的时代已经到了,值得期待一下

最近在AI这块,自我进化的事儿挺火。就是说,AI不光让别人训练它,还能自己主动参与训练下一代AI。就好比人会自己思考进步一样。现在大模型这么多,数据质量还是挺让人头疼的。特别是训练那些大语言模型,数据清洗太复杂了,搞得大家都不太懂怎么弄。传统的方法得靠领域专家手动设计规则,面对那么多种类的数据,专家们要花好多时间精力去弄这些规则。但这样有个大问题,设计成本太高了,验证效果还得跑完整的训练流程,特别费GPU时间。 为了解决这个困境,上海创智学院、库帕思还有上海交通大学GAIR团队的研究者们搞了个叫DataEvolve的框架。这东西把数据清洗策略变成了让AI自己进化出来的东西。这个框架有个闭环优化系统,里面有数据观察员、策略设计师、数据清洗器和质量评判员四个部分。观察员负责找样本里的问题,策略设计师根据这些问题生成新规则,然后在小样本上试一下,最后评判员打分看看行不行。这样就不用每次都跑完整训练了,速度快多了。 实验结果看下来,DataEvolve处理预训练数据集挺管用。他们搞出了一个叫Darwin-CC的数据集,在好几个测试里表现都不错。特别是知识密集型任务上,提升特别明显。和原来的数据比起来,Darwin-CC平均成绩提高了4分多,医学问答里更是直接涨了13.48分。另外他们还做了个实验比较不同策略的效果,结果显示持续优化的策略比简单自动化的效果好太多。 不过也有一说一,不是所有任务都适合这么清洗。有些依赖口语化、非正式语言的任务上,模型反而表现得没以前好了。这告诉我们在追求数据质量的时候还得注意保留语言风格的多样性。 总之DataEvolve给数据清洗提供了一条自动规模化的路子。这说明AI在数据处理这块真的能自我进化了。未来的智能系统肯定更高效、更聪明了。AI自我进化的时代已经到了,值得期待一下。