新闻中心
校庆学术报告“从自动分类的角度看文章的难度:兼谈计算语言学的研究范式”举行
发布时间:2017-10-30        浏览次数:91

 

1025日,由我校中文系现代汉语教研室晨晖学者,长期从事计算语言学、语料库语言学、汉语词汇语义学和语法方面研究工作的柏晓鹏博士举办的“从自动分类的角度看文章的难度:兼谈计算语言学的研究范式”讲座在中文系三楼特藏室举行。现代汉语教研室晨光学者吴君如博士、孙锐欣博士、郑伟教授和现当代文学教研室的倪文尖副教授,以及中文系本科、硕士研究生同学参加了此次讲座。在讲座中,柏晓鹏老师报告了使用机器学习的自动分类技术进行的文本难度自动计算工作,同时也介绍了计算语言学的一些研究范式、基本方法和常用工具等方面问题。

讲座介绍了自动分类、文本难度、机器学习等基本概念,运用“备课——上课——考试”生动比拟了机器学习的“训练——调试——评测”过程,并结合数据对以往的文本难度分析计算方法进行了评述。柏晓鹏老师指出,在深度学习被高度重视且日趋成熟的背景下,如何定义文本难度或如何寻找影响文本难度的因素是我们需要重点关注的问题,语言研究者不仅要“知其然”,同时也要“知其所以然”,要能够针对一个问题在垂直领域做深入探讨,这也是学术研究区别于市场化研究的关键所在。报告介绍了易读性公式、支撑向量机(SVM)、卷积神经网络(CNN)等方法在文本难度计算上的应用,并指出同一种分类技术在母语文本和外语学习者文本难度测试的准确度上有所不同,表现为语义等深层语言特征对母语文本难度影响较大,而词频等表层语言特征对外语学习者文本难度影响更大,而后者与对外汉语教材编写过程中对常用词表的参考是有一定关系的。与会的老师和同学针对报告中的问题进行了深入探讨。孙锐欣博士认为,在母语文本分析中,如何将思想、意义、写作意图等纳入文本难度计算是值得考虑和探索的问题;吴君如博士指出,作家的写作风格等因素并非完全不可量化,如何将多个维度进行压缩,形成一个科学且有效的评价标准问题值得关注。