使用Jieba进行中文词性标注
词性
词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。
常见词性分类
词性分类又叫词性标注(Part-Of-Speech tag, POS-tag),常见的词性标准类型如下:
名词
- n 名词
- nr 人名
- nr1 汉语姓氏
- nr2 汉语名字
- nrj 日语人名
- nrf 音译人名
- ns 地名
- nsf 音译地名
- nt 机构团体名
- nz 其它专名
- nl 名词性惯用语
- ng 名词性语素
时间词
- t 时间词
- tg 时间词性语素
处所词
- s 处所词 (在公司,在学校)
方位词
- f 方位词
动词
- v 动词
- vd 副动词
- vn 名动词
- vshi 动词“是”
- vyou 动词“有”
- vf 趋向动词
- vx 形式动词
- vi 不及物动词(内动词)
- vl 动词性惯用语
- vg 动词性语素
形容词
- a 形容词
- ad 副形词
- an 名形词
- ag 形容词性语素
- al 形容词性惯用语
区别词
- b 区别词
- bl 区别词性惯用语
状态词
- z 状态词
代词
- r 代词
- rr 人称代词
- rz 指示代词
- rzt 时间指示代词
- rzs 处所指示代词
- rzv 谓词性指示代词
- ry 疑问代词
- ryt 时间疑问代词
- rys 处所疑问代词
- ryv 谓词性疑问代词
- rg 代词性语素
数词
- m 数词
- mq 数量词
量词
- q 量词
- qv 动量词
- qt 时量词
副词
- d 副词
介词
- p 介词
- pba 介词“把”
- pbei 介词“被”
连词
- c 连词
- cc 并列连词
使用Jieba词性分类
Jieba下进行词性分类非常简便。
seg_lig = jieba.posseg.cut(text) |
以经典句子为例,“我爱北京天安门“,词性分类的结果为:
我 /r |
使用一个稍微复杂的例子。
据半岛电视台援引叙利亚国家电视台称,叙利亚已经对美国、英国、法国的空袭进行了反击。据介绍,在叙军武器库中,对西方最具威慑力的当属各型战术地对地弹道导弹。尽管美英法是利用巡航导弹等武器发动远程空袭,但叙军要对等还击却几乎是“不可能完成的任务”。目前叙军仍能作战的战机仍是老旧的苏制米格-29、米格-23、米格-21战斗机和苏-22、苏-24轰炸机
由于文字较多,使用分行显示会十分乱,我们稍微修改代码,让分词后的词性标注结果紧跟着原单词。
seg_lig = jieba.posseg.cut(text) |
分词的结果如下所示。
>据 /p 半岛 /n 电视台 /n 援引 /vn 叙利亚 /ns 国家 /n 电视台 /n 称 /v , /x 叙利亚 /ns 已经 /d 对 /p 美国 /ns 、 /x 英国 /ns 、 /x 法国 /ns 的 /uj 空袭 /v 进行 /v 了 /ul 反击 /v 。 /x 据介绍 /n , /x 在 /p 叙军 /n 武器库 /n 中 /f , /x 对 /p 西方 /s 最 /d 具 /v 威慑力 /n 的 /uj 当属 /n 各型 /r 战术 /n 地对地 /n 弹道导弹 /n 。 |
参考文献
评论