-
-
123
已被推荐
难度是有的,你要做好心理准备。
计算语言学是一门交叉学科。计算语言学研究需要多个学科的知识。
语言学 (自然语言是处理对象)计算机科学(计算语言学的研究工具)
数学(自然语言的建模工具)
计算语言学的研究方法主要分为三大类:规则驱动的方法(符号主义)、数据驱动的方法(统计方法)以及二者融合的方法。
规则驱动的方法(符号主义):
1. 研究人员(例如语言学家)对语言的规律进行总结,形成规则形态的知识库。2. 研制语言处理算法,利用这些规则对 自然语言进行处理。
3. 研究人员根据处理结果,调整规则, 改进处理效果。
数据驱动的方法(统计方法):
1. 建立可以反映语言使用情况的语料库。
2. 研究人员对自然语言进行统计建模。3. 利用统计技术或机器学习技术,利用语料库训练语言模型。
4. 利用得到的模型设计算法对语言进行处理。5. 根据处理效果改进模型,提高处理性能。
然而有句话叫做All grammar leak (Sapir 1921)。对于自然语言而言,很难写出一部完备的规则集,语言规则有很强的灵活性。所以近十几年,越来越多的研究者开始抛弃规则方法,转向统计方法进行研究。
所以说,语言学是重要的,毕竟搞词法分析、语法分析、各种消岐等自然语言处理的基础领域都需要语言学的相关知识,我们所里也有两位专门搞语言学的老师。但除了语言学之外,数学基础和编程能力都是不可或缺的,尤其是数学。(其他答主都以计算机编程为主,我这里就略了)。
计算语言学研究主要需要的数学知识如下:
1. 微积分和线性代数
2. 概率统计
3. 信息论
4. 机器学习方法
5. 随机过程、凸优化、图论、泛函分析
6. 其他现在自然语言处理还是很难做到完美,计算机语言是逻辑清楚的,但自然语言有很多时候语义是模糊的,还有很多歧义的存在。
我也很希望越来越多的文科生(特别是语言学有比较深的造诣的人)来从事这方面的研究,或许有一天就真的能解决这么多自然语言本身特点导致的问题。声明:该文观点仅代表作者本人。
-