新闻中心
我系主办“应试作文写作质量的计量和计算”研讨会
发布时间:2017-11-28        浏览次数:14

 

 

1126日,由我系现代汉语教研室柏晓鹏博士主持的“应试作文写作质量的计量和计算”研讨会在我校中北校区理科大楼二楼文科沙龙研讨室举行。

    本次研讨会以“人工智能自动分析应试作文水平”为主题,从语言学、语文教育、计算机科学三个专业角度,探讨机器自动评价作文的可能性,旨在搭建自然语言处理和语言教育领域之间的桥梁,通过不同领域专家学者的分享,能够对作文自动评价有更为全面和实际的理解,以利于人工智能技术在语文教育领域更快地落地。会议首先由王意如老师致欢迎辞,王意如教授强调了语文教育尤其是写作能力培养的重要性,并指出如何公平有效地评价作文长久以来受到关注,跨学科的深入探讨有利于给这个传统领域带来新的启发。研讨会主要围绕作文自动评价技术的定位、不同类型学习者、语文教学的需求和期望,以及作文自动评价中的关键技术进行讨论。

    柏晓鹏博士以“作文计量和计算中的语言资源”为题做报告。他指出,作文自动评价应该定位于教师的辅助者,而不是替代者。虽然开发MasterGo的深度神经网络技术可以击败顶尖人类棋手,但是作文属于高级认知活动,几乎没有规则性的指标可供操作。即使深度神经网络可以在训练数据上达到或者超出人类评阅者的水平,由于它只评分不分析,我们依然不能用这种方式去评判人类写作成果。出于教育需求,给出一篇作文的各项分析指标和评价建议,则恰恰极为重要。由于应试作文评分耗费大量人力物力,基于此他提出了通过自然语言技术,对作文进行质量分析,以及识别“同质化”作文的目标,以节约时间用于评价好或差的作文。

    南京信息工程大学文学院院长李忠明教授基于命题与阅卷的视角谈了若干思考。他认为,作为高利害的应试作文,应该利用计算机技术来补人工阅卷的短,而不是谁取代谁。计算机可以快速识别一些人很难注意到的东西,如雷同的例子、用词用语、句子结构、篇章结构等。他强调,使用合适的训练数据是做好此项工作的前提,所以要对应试作文和竞赛作文分开讨论;在技术上,自动评分首先要解决如何将手写文本转化为计算机可识别材料的问题。

    计算机系副教授兰曼博士介绍了她的团队在“语篇逻辑关系识别”方面的研究。语篇关系能反映出作文内部语义逻辑的一致性,是对传统着眼于词汇、句法层面的突破。对一篇文章段落和段落内句子之间,体现了作者在谋篇布局和整体思维方面的能力。柏晓鹏博士认为,该项研究虽然整体上并未达到非常高的精确程度,但是在比较抽象的层次上,是可以投入实际使用的。

    中文系徐默凡副教授结合实际,指出在语文教学和应试中存在的“背范文”、“背素材”和“编造名言”等现实问题。这些问题伤害了实际作文教学的效果,而在考试评阅中无法被快速识别。他也认为,基于深度神经网络的技术可能无法满足评价应试作文的需求,但是基于统计的机器学习算法可以帮助教师得到关于作文的基本事实,并且帮助识别雷同素材,促使教学和学习更加符合语文教育的要求。

    对外汉语学院副院长叶军教授从跨文化视角出发,介绍了“美国国家共同核心标准的写作评价”,国外较为成熟的评价体系对我们实现母语者的作文评价有一定的参考意义。上海纽约大学的黄晓玥老师则介绍了一个具体的对留学生作文进行评价的评分模型,该模型获得了很高的阅卷人间一致性。

    除此之外,与会专家针对多个问题展开了热烈讨论。上海市教委教研员、语文特级教师曹刚老师指出,作文自动评价能够减轻教师负担,能够对学生作文进行细致分析,这对于上海语文教育而言是非常值得期待的事情。对于高考作文是否应该分项打分,中文系倪文尖副教授指出,分项打分容易造成高分作文少、总体分数趋中的情况;胡范铸教授认为,作文的评价应该是整体性的,但在某一方面尤为突出的考生也应受到关注。对于常规与超常规搭配的识别,黄晓玥博士认为需要结合考生的语言水平,选拔性考试中超常搭配可能是语言运用能力强的表现,达标性考试则相反;柏晓鹏博士指出目前对于超常规的识别还离不开人工干预。对于能否通过机器实现自动评分,此后,叶军教授以普通话测试的评分为例,认为应该区分机器能做的与人能做的,在二者之间寻找可能的相关性;徐默凡副教授认为,完全依靠计算机评分一定程度上是有违伦理的,对于考生来说心理上可能难以接受;李忠明教授指出,基于一套规则的计算机评分能够提高评分的公平性,但计算机的角色应该是辅助而非替代。上海交通大学人文学院宋春阳副教授、许希阳老师,华东师范大学教师教育学院副研究员叶丽新博士等,也在会上分别发表了各自看法。

    此次研讨会受到华东师范大学中央高校基本科研业务费“跨学科工作坊”支持(2017ECNU-KXK010)