9月23日,由中国语言文学系现代汉语教研室讲师柏晓鹏博士主持的跨学科工作坊“基于文本大数据的语言和语言学研究”在闵行校区中文系4108会议室举行(2017ECNU-KXK010)。特邀专家有北京大学中文系袁毓林教授(长江学者)、厦门大学苏新春教授(厦门大学嘉庚学院人文与传播学院院长,国家语言资源监测与研究教育教材中心主任)。
本次研讨会邀请了来自语言学、计算机科学以及其他学科的科研人员,旨在通过各种跨学科经验的交流与碰撞,加深了解并寻求合作。会议首先由现代汉语教研室主任郑伟教授致欢迎辞,并向与会的专家学者介绍了此次讨论的主要议题:(一)文本大数据与语料库(语料资源)的区别与联系;(二)与文本大数据相关的主要技术方法;(三)研究中对文本大数据的需求;(四)深度学习技术在语言研究中的应用,以及深度学习在其他领域的成功是否意味着机器学习技术和统计学习方法的更新甚至淘汰。
厦门大学苏新春教授以《通用规范汉字字表》中的一级常用字为例,做了关于“大数据与精数据”的报告。苏教授强调“精数据”的重要性,他指出对词的划分要有一个更精准的依据,收录能独立成词的字,“以字带词”“以词促字”。在运用数据时,不仅要注意数据规模的“大小”,更要关注数据的“精”。既要有“精语料”,关注语料本身的性质、来源、结构等;又要用“精方法”,要采用有效的方法、手段、角度对语料进行分析。
袁毓林教授希望通过将具有情景联想关系的词汇概念联系起来,发现它们之间的语义和推理关系,构建出高级版的wordnet。他指出“冗余信息”在“静止神经系统模式”的作用下会促使人类动作的连贯,这从生理机制上揭示了连动句背后的原因。袁教授同时也提出了对当代语言学研究者的期望:要掌握基础的语言学研究方法,从语言学的角度考虑问题,能够将其他学科的研究方法有效地利用到语言研究上来的同时立足根本。
复旦大学计算机系的陶晓鹏副教授认为,即使在目前机器翻译依靠大数据的自我试错更新便能逐步提高准确率的大背景下,语言学家的作用仍是不可忽视的。他提出可以把词向量化,而后运用编程语言来改写例句与规则。南京师范大学李斌副教授介绍了自己基于互联网搜索引擎语料建立的汉语认知属性库。上海外国语大学张炜炜博士分析了大陆台湾两岸新闻媒体和社交网络对于政府的指称策略的异同。华东师范大学兰曼副教授以淘宝“买家评价”为例讨论了利用深度神经网络进行文本情感判断的研究。华东师大中文系吴君如博士介绍了如何利用网络爬虫和自然语言处理技术构造一个上海话文本语料库。柏晓鹏博士则介绍了教材文本难度计算中的语言特征问题。上海财经大学的吴一平副教授和上海对外经贸大学的黄志瑾博士指出文本大数据技术在经济学和法学领域也成为了重要的研究方法,他们分别介绍了与语言学家合作的切入点和可能性。
最后,各位专家学者就难点问题展开了讨论,并对计算语言学学科今后的发展提出了展望。
(本次研讨会受到中央高校基本科研业务费-华东师范大学“跨学科工作坊”经费支持2017ECNU-KXK010)