nlp自然语言处理需要用什么服务器(自然语言处理NLP之分词)
1. 分词的含义
分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。
2.分词的原因
①将复杂问题转化为数学问题
②词是一个比较合适的粒度
③深度学习时代,部分任务中也可以「分字」
深度学习时代,随着数据量和算力的爆炸式增长,很多传统的方法被颠覆。
3. 中英文分词的3个典型区别
①分词方式不同,中文更难
英文有天然的空格作为分隔符,但是中文没有。所以如何切分是一个难点,再加上中文里一词多意的情况非常多,导致很容易出现歧义。
②英文单词有多种形态,需要词形还原和词干提取
词形还原:does,done,doing,did 需要通过词形还原恢复成 do。
词干提取:cities,children,teeth 这些词,需要转换为 city,child,tooth
③中文分词需要考虑粒度问题
例如「中国科学技术大学」就有很多种分法:
中国科学技术大学
中国 \ 科学技术 \ 大学
中国 \ 科学 \ 技术 \ 大学
粒度越大,表达的意思就越准确,但是也会导致召回比较少。所以中文需要不同的场景和要求选择不同的粒度。这个在英文中是没有的。
4. 中文分词的3大难点
①没有统一的标准
②歧义词如何切分
例如「兵乓球拍卖完了」就有2种分词方式表达了2种不同的含义:
-乒乓球 \ 拍卖 \ 完了
-乒乓 \ 球拍 \ 卖 \ 完了
③新词的识别
信息爆炸的时代,三天两头就会冒出来一堆新词,如何快速的识别出这些新词是一大难点。
5. 3个典型的分词方式
①基于词典匹配
基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。代表方法有基于正向最大匹配和基于逆向最大匹配及双向匹配法。
优点:速度快、成本低
缺点:适应性不强,不同领域效果差异大
②基于统计
这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。
以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
优点:适应性较强
缺点:成本较高,速度较慢
③基于深度学习
例如有人员尝试使用双向LSTM CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型,据报道其分词器字符准确率可高达97.5%。
优点:准确率高、适应性强
缺点:成本高,速度慢
常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。
6. 中文分词工具
7. 英文分词工具
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com