这套新评分引擎在act 写作里的事儿,这是份足足有31页的技术报告。大家伙儿知道不?

这回咱们聊聊CRASE5这套新评分引擎在ACT写作里的事儿,这是份足足有31页的技术报告。大家伙儿知道不?这是2026年1月份刚放出来的最新资料,重点就是讲CRASE5怎么开发出来的、怎么验证它准不准、到底好用不好用。老东家ACT就想拿这个新玩意儿跟之前的CRASE+比比看,到底能不能对上号。话说这套系统是在2025年弄出来的,它不光继承了老版的底子,还在上面加了好多新本事。比如现在能自动检查你跑题没、有没有写些不该写的内容、还能用新的模型来更准地打分、甚至还能告诉咱们系统自己有多自信。 为了把这活儿干漂亮,ACT的那帮研究人员可是费了大劲。他们用了大概1万4千篇世界各地的ACT作文来训练和测试系统。这些作文有的是用来训练的样本,一共8862篇;还有5128篇是专门用来做盲评的样本。大家伙儿要注意了,这些都得是在线考出来的正经作文,那些带条件码的垃圾数据可全给排除了。 接下来咱们就看它到底准不准。报告里用了两个标准来测:一个是1到6分的尺度,还有一个是2到12分的尺度。先看1到6分这档子事儿。在观点与分析、发展和风格、组织、语言使用和规范这四个主要领域里,CRASE5跟人工打分的一致率都超过了60%。这可是ACT定的标准线。更厉害的是,精确+相邻一致率更是冲到了99%,这就好比你和机器看法都差不多。二次加权Kappa系数(QWK)也跑到了0.82以上,这可比人工评卷员自己内部的一致性还要高。再看2到12分的那个尺度,虽然精确一致率稍微掉了点,但得分的分布跟人工记下来的还是特别像。QWK更是达到了0.88以上。 除了这些大的方面,哪怕是按具体的提示词来细抠每个领域的表现,CRASE5也比以前的CRASE+强了不少。虽说少数几个提示词的指标没完全达标,但整体来看问题不大。研究人员还用了类似ETS的方法做了子组分析,看看有没有啥不公平的地方。他们从性别、是不是西班牙裔、种族这些维度来看都没啥大问题。 在1到6分和2到12分这两个尺度下,只有一小部分群体的平均差异稍微超出了点阈值。但整体来说差别很小,没啥明显的偏见。这就说明这套系统挺公平的,符合教育心理测评的标准。 还有个新功能值得一提。CRASE5有个预评分的环节能先把问题找出来。它能通过语义比对、查字符这些招数来发现空的回答、不是英文的内容、跑题的或者看不清的东西。更绝的是它还能用神经网络去检查那些让人不安的内容。一旦发现不对劲的地方就直接转人工处理。这样一来就能保证准确性了。 不过呢,这套系统也没完全丢掉老规矩。那些字数少于25个字、或者大写字符超过20%的作文还得人工来评。 总的来说这套通用评分模型挺管用的,跟以前的CRASE+比起来差不多甚至还更好用点。那些新增的功能让评分更全面更可靠了。在各个方面表现都符合ACT和整个行业的标准,绝对是有实用价值的好东西。 下面给大伙儿贴点报告里的节选内容看看吧~