您现在的位置:新濠天地APP>玩法介绍>bbin视讯投注·GRE作文用AI打分,20周年了:AI给中国考生的分数,远超人类打分

bbin视讯投注·GRE作文用AI打分,20周年了:AI给中国考生的分数,远超人类打分

2019年-12月-25日 14:55:24
 【摘要】摘要:在1999、2004、2007、2008、2012和2018年的作文里,都能发现ai给中国大陆考生的分数,普遍比人类打分要高。再进一步,分单项来观察ai的打分情况。最终,ai给大陆考生的总分,整体比人类打分更高。gre作文满分6分,ai比人类打分平均高出1.3分。相比之下,在非裔美国人身上,ai比人类打分平均要低0.81分。所以,ets认为考生并不会受到ai缺陷的不利影响。另外,ai的存在不止影响

bbin视讯投注·GRE作文用AI打分,20周年了:AI给中国考生的分数,远超人类打分

bbin视讯投注,栗子 发自 凹非寺

量子位 报道 | 公众号 qbitai

gre作文用了ai打分。

这原本不能算个新闻。

但由于美媒vice发布的一项调查,这件事又成了热烈讨论的焦点。

vice调查了美国的50个州,发现有至少21个州 (包括加州) 的教育系统,已经把ai当成作文打分的主要/第二主要工具,用在标准化考试里。

△ 蓝=ai打分,浅蓝=有试点,红=无ai打分,桃红=看学区,灰=未回应

这21个州里,只有3个州表示,人类也会参与作文打分;余下18个州,只会随机抽出5%-20%的作文,交给人类复核一下ai给的成绩。

问题是,标准化考试常常作为选拔依据,左右人类前途。ai打分的话,命运就在ai手里了。

这时,人们不免想起了gre,这个20年前就开始用ai判作文的大前辈。

有有不少研究表明,包括gre打分机器e-rater在内,许多ai评判文章的机制,都有明显的缺陷。

不过经年累月,ai不但没有被各种作文考试抛弃,反而越发受欢迎了。

于是,hacker news网友开启了激烈的讨论,不到一日热度便有了330+。

早在1999年,主办gre的美国教育考试服务中心 (ets) ,就开始用e-rater给作文打分了。

跟据官方信息,这个自然语言处理 (nlp) 模型,评分标准有以下8条:

· 基于词汇考量的内容分析 (content analysis based on vocabulary measures)

· 词汇复杂度/措辞 (lexical comlexity/diction)

· 语法错误比例 (proportion of grammar errors)

· 用法错误比例 (proportion of usage errors)

· 机械错误比例 (proportion of mechanics errors)

指拼写错、大小写错、标点错等等技术问题。

· 风格评论比例 (proportion of style comments)

比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。

· 文章组织和发展分 (organization and development scores)

· 地道用语 (features rewarding idiomatic phraseology)

当然,这只ai不止服务gre。至少,托福和gre一样,也是ets出品的考试。

至于这套算法的缺陷都出在哪,ets官方就做过不少研究,且从不避讳研究结果。

在1999、2004、2007、2008、2012和2018年的作文里,都能发现ai给中国大陆考生的分数,普遍比人类打分要高。

相反,在非裔美国人身上,ai常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里,也有相似的情况。即便团队一直改进算法,也没有消除这个问题。

ets的一位高级研究员说:

如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。

再进一步,分单项来观察ai的打分情况。

会发现在全部考生里面,e-rater给中国大陆考生的语法 (grammar) 和写作技巧 (mechanics) 分,整体偏低;

而在文章长度和复杂单词的选用上,中国大陆考生的ai打分超过平均。最终,ai给大陆考生的总分,整体比人类打分更高。gre作文满分6分,ai比人类打分平均高出1.3分。

相比之下,在非裔美国人身上,ai比人类打分平均要低0.81分。以及,这只是平均数据,在许多考生那里,差异来得比这更剧烈。

不论是1.3还是0.81,在6分制的考试里都不是小数字,可能严重影响考生的成绩。

不止如此,mit的小伙伴们开发过一个叫babel的算法,把复杂的词句拼贴在一起,得出的文章没有任何实在的意义,却被gre的线上评分工具scoreitnow!打出了4分的好成绩。

但ets说,ai不是单独判卷,每篇ai打分的作文,都有一个人类同时打分。然后,把人机打分之间的差异,交给第二个人类去判断,得出最终的分数。

所以,ets认为考生并不会受到ai缺陷的不利影响。

不过对比一下,传统方法是两个人类同时给一篇文章打分;而当ai替代其中一人打分,相当于这个人的职责变成了复核。

成本大概下降了不少,对结果的影响有多大就很难说,至少打分机制和ai参与之前有差别了。

另外,ai的存在不止影响评分,也直接影响考生的应试策略。这些年,讨好ai的攻略越来越多:

△来自chasedream论坛@竹林中人

还好,gre有人类和ai一起打分。

可还有许多考试是直接交给ai判作文的:

比如,vice调查发现,犹他州把ai作为主要 (primary) 作文评分工具,已经有些年头了。

州内的一位官员解释了原因:

手动打分除了耗费时间之外,也是本州一项重大开支。

所以,用ai来为写作评分,在降低成本的同时,能不能做到公平公正?

美国研究协会 (american institutes of research,air) 是一间非盈利机构,也是犹他州最主要的考试提供方。

关于交给ai打分的是怎样的题目,air给出了一个范本:

这道题目是,看到一张海牛图像,考生要写出一个观察 (a) ,和一个推理 (b) 。

而air每年都会做出一份报告,评估一些新题目的公平性。

评估的一个重点就是:女生和少数族裔学生,在特定考题上,是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (dif) ”。

报告显示,2017-2018学年、三至八年级的写作考题里,有348道题被判定为,对女生和少数族裔学生有轻微dif;相比之下,对男生和白人学生有轻微dif的题目有40道。

另外,还有3道题被判定为:对女生和少数族裔学生有严重dif。这些题目会交由专门的委员会审核。

可能造成dif的原因有多种,而算法偏见是大家最关心的因素。

一位来自犹他州的家长 (@dahart) ,占据了hacker news讨论版的顶楼。

他很不喜欢听那些官员讲“成本”。他觉得,教育本来就是费时费力的,不可能又快又便宜。

他说,孩子的作文是机器打分,全家不满意ai给的分数,爱人和孩子都会哭。

当然,ai判作文也不止美国才有。

去年,《南华早报》说国内已经有6万所学校靠ai批改作业,分布在全国各地。

其中,学生提交的英文作业,也是机器打分。作文批改系统来自酷句批改网,要理解文字的一般逻辑和意思,对作文的整体质量做出像人一样合理的评判,还要在写作风格、结构、主题等方面给出建议。

据说,ai和人类教师对一篇作文的评分,在92%的情况下是一致的。

但从评论来看,同学们也像美国的小伙伴一样,受了不少委屈:

这样的情感,还是不分国界的。

参考资料:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ets发的许多nlp论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(qbitai)对话界面,回复“招聘”两个字。

量子位 qbitai · 头条号签约作者

վ'ᴗ' ի 追踪ai技术和产品新动态

网络电玩城

上一篇:轰-6K和图-95巡航路线为何如此规划?只因轰-6K“腿”太短
下一篇:京东荒岛特训赏金赛开启招募 来这里和职业战队一起荒岛求生!
相关资讯
历史资讯
水培吊兰这样养,生长健壮不烂根,状态好极了
VV5S到店实拍,这个红外加红内搭配简直美翻
华生科技挂靠过集体试过中外合资 现要冲刺主板
长沙各银行严格落实差别化住房信贷政策
土豆和豆角放在一起,没想到这么好吃,我家一周吃3次,做法简单
王重明双色球135期:重投一注14+2复式,蓝球06 12中不中看天意了
早教对每个孩子都很重要,给孩子早教就等于把孩子送去早教班吗?
G2教练GrabbZ:Perkz有着钢铁般的意志
开门不观察 碰倒电动车
这个月底,财运好到弯腰都可以捡钱的生肖