报告题目:基于文本大数据的语言和语言学研究: 在哪里、为什么、怎么做
报告人:语言学、计算机科学以及其他学科的科研人员
报告时间:2017年09月23日~24日 8:30~17:00
报告地点:华东师范大学闵行校区中文系4108
主持人:吴君如
主办单位:华东师范大学中文系现代汉语教研室
研讨会简介:
“大数据”可能是目前最流行的术语,搭配上近两年兴起的深度神经网络算法,二者相加所达到的成就,使所有人看到这一技术方法的高度优越性。从工业界到学术界,从自然科学到工程技术到人文社科领域,大家都纷纷宣称在自己的工作中已经使用大数据技术,或者即将使用大数据技术。
语言研究和语言学研究呢?
在研究中使用数据和统计计算的方法,对于语言学来说并不是什么新鲜事。我们需要清楚的是,目前的这一学术潮流对语言和语言学研究而言的意义是什么。大数据与语料库的区别在哪里。深度学习在其他领域的成功,是不是意味着上一代的机器学习技术和统计计算方法需要被更新甚至淘汰。语言学以外的领域,对文本大数据的需求在哪里。
本次研讨会邀请来自语言学、计算机科学以及其他学科的科研人员,结合各自的工作,针对以上问题,交流经验和想法,从而达到促进研究、加强了解并寻找合作的目的。
主要议题
本次的研讨会的主要讨论对象是文本大数据,推荐讨论的话题如下(但不局限于此):
文本大数据与语料库(语言资源)区别与联系
与文本大数据相关的主要技术方法
研究中对文本大数据的需求
深度学习技术在语言研究中的应用
议程:
9月23日上午,8:30~11:30,主持人:吴君如
8:30~8:40 郑伟 欢迎辞 华东师大中文系现代汉语教研室主任
8:40~9:40 苏新春 大数据与精数据——以<通⽤规范汉字表>⼀级常⽤字的表意性为例 厦门大学中文系
9:40~10:10 陶晓鹏 自然语言处理的研究要重视人类词典的利用 复旦大学计算机系
10:10~10:30 茶歇、合影
10:30~11:00 张炜炜 Factors associated with naming strategies for GOVERNMENT: An exploratory study using classification trees and random forests 上海外国语大学语言研究所
11:00~11:30 李斌 基于认知属性库的副名结构新探 南京师范大学文学院
11:30~13:30 午餐
9月23日下午,13:30~16:30,主持人:李思
13:30~14:00 兰曼 情感词向量及应用研究 华东师范大学计算机系
14:00~14:30 包祖贻 中文分词中的领域迁移与表示学习 北京邮电大学信息学院
14:30~14:50 茶歇
14:50~15:20 吴一平 城市信用环境与企业行为 上海财经大学
15:20~15:50 李成名 文本相似度计算的发展-从情感分析到法律文本:深度学习是否可以取代一切 南京师范大学文学院
15:50~16:20 黄志瑾 中外双边贸易协定的文本相似度计算 上海对外经贸大学
16:20~17:00 自由讨论
17:00~ 晚餐
9月24日上午,9:00~11:30,主持人:韩蕾
9:00~10:00 袁毓林 语义知识资源建设及其在内容计算中的应用 北京大学中文系
10:00~10:20 茶歇
10:20~10:50 吴君如 上海话文本语料的抓取与整理 华东师范大学中文系
10:50~11:20 柏晓鹏 影响课文难度的语言特征研究 华东师范大学中文系
11:20~ 自由讨论、午餐