命名实体如何进行概念消歧?

  • 时间:
  • 浏览:2
  • 来源:大发uu快3_uu快3赢钱诀窍_大发uu快3赢钱诀窍

       命名实体概念消歧是命名实体消歧(英语:Named Entity Disambiguation)的就说 我 重要研究子领域(命名实体概念可见本文3.1章)。哪有几个叫概念消歧了?在这里举就说 我 简单例子进行说明,就说 我 命名实体“天龙八部”,它有但会 个不同的含义,其含晒 电视剧类的含义,电视剧含义有好有几个,如“1997黄日华版电视剧”、“1982年TVB版本电视剧”、“803年内地胡军版电视剧”、“”2013年内地版电视剧“等;其含晒 漫画类的含义,漫画含义有好有几个,如“腾讯动漫的漫画”、“黄玉郎改编的漫画”。着实电视剧类的含义有好有几个,但哪有几个含义也有同就说 我 概念,它们都属于“电视剧”你什儿 概念。



图1 不同的含义的天龙八部

       但会 命名实体概念消歧的任务是识别一段文本中给定的命名实体到底属于哪就说 我 概念。类式于有下面八个文本。

表1 文本概念消歧的例子
A 港版天龙八部还是经典啊,黄日华才演出萧峰的气质 97黄日华版电视剧 电视剧
B 我是张纪中的铁杆粉丝,我当然喜欢天龙八部啦 03内地胡军版电视剧 电视剧
C 我喜欢香港漫画,如《天子传奇》《天龙八部》 黄玉郎改编的漫画 漫画

       文本A中天龙八部是“1997黄日华版电视剧”,文本B中天龙八部是“803年内地胡军版电视剧”,文本C中的天龙八部是“黄玉郎改编的漫画”。着实文本A和文本B中的天龙八部也有同就说 我 意思,但文本A和文本B中的天龙八部也有同就说 我 概念类别,也有“电视剧“的天龙八部。那末 概念消歧做的任务就说 我 将文本A和文本B中的天龙八部都划分到“电视剧”你什儿 概念中,将文本C中的天龙八部划分到“漫画”你什儿 概念中。

接下来本文简单介绍如保对命名实体进行概念消歧。

2.1 实体全体含义的获取

       本文以天龙八部百度百科为数据源进行说明,首好难获取天龙八部你什儿 实体所有含义的“描述”文本和“属性”表格,如下为天龙八部其中就说 我 含义——1997黄日华版电视剧的“描述”文本和“属性”表格。



图2 前要爬取1997黄日华版电视剧的内容

2.2 文本分词构建关键词词组

       得到每就说 我 含义的“描述”文本和“属性”表格后,利用jieba分词工具对描述本文“《天龙八部》是一部改编自金庸同名小的古装夫妻感情剧,由香港无线电视台……”进行分词处里,得到但会 列词语构成的list1。但会 从“属性”表格中提取“剧情,武侠,言情,古装”和“李添胜”等属性词,哪有几个属性词又构成list2。接着合并list1和list2,就都前要得到“1997黄日华版电视剧“含义的关键词词组。

       对天龙八部每就说 我 含义都进行如下处里,亲戚亲戚朋友可得到如下所示的表格

表2 不同天龙八部含义对应的关键词词组
97黄日华版电视剧 ["1997", "李添胜", "天龙八部", "黄日华", "樊少皇", "张国强", "陈浩民", "李若彤", "刘锦玲", "赵学而", "何美钿", "28", "陈国梁", "香港", "金庸", "武侠", "古装", "刘玉翠", "萧峰", "慕容复"]
03内地胡军版电视剧 ["电视剧", "803", "古装", "于敏", "迪丽热巴", "鞠觉亮", "周晓文", "赵箭", "林志颖", "12", "11", "22", "金鹰奖", "天龙八部", "高虎", "胡军", "刘涛", "陈好", "张纪中", "优秀作品"]
82版香港电视剧 ["虚竹", "1982", "天龙八部", "神剑", "黄日华", "黄杏秀", "之六脉", "萧笙", "梁家仁", "汤镇业", "陈玉莲", "石修", "TVB", "03", "22", "传奇", "武侠", "中国香港", "香港", "乔峰"]
黄玉郎改编的漫画 ["武林", "乔峰", "帮主", "黄玉郎", "天龙八部", "威名", "丐帮", "虚竹", "段家", "英雄辈出", "大宋", "他族", "大帮", "北乔峰", "之妻", "康敏", "堕地", "段誉", "胡绍权", "风云际会"]
腾讯动漫的漫画 ["漫画作品", "天龙八部", "连载", "腾讯", "动漫", "凤凰", "娱乐", "创作"]
…… ……

2.3 概念抽取和归并

       上提及的“电视剧”、“漫画”哪有几个概念也有凭空而来的,它是通过下述算法而得:

       (1)含义标题分词和词性标注

       使用jieba分词工具对含义标题 “1997年黄日华版电视剧”进行分词和词性标处里。亲戚亲戚朋友可得到就说 我 就说 我 数组[['1997', 'm'], ['年', 'm'], ['黄日华', 'nz'], ['版', 'n'], ['电视剧', 'n']],第i个元素是就说 我 由分词和对用词性组成的数组。

       (2)获取概念候选词

       只确定上一步中获取的名词词语,那末 亲戚亲戚朋友都前要得到['黄日华', '版', '电视剧']

       (3)确定候选词

       通常含义标题最后就说 我 名词往往是能代表此含义具体概念类别的词语,由上一步亲戚亲戚朋友可知最后就说 我 名词是“电视剧“,恰好符合标题对应概念。但会 可得到如下列表

表3 不同天龙八部含义对应的关键词词组和概念
97黄日华版电视剧 ["1997", "李添胜", "天龙八部", "黄日华", "樊少皇", "张国强", "陈浩民", "李若彤", "刘锦玲", "赵学而", "何美钿", "28", "陈国梁", "香港", "金庸", "武侠", "古装", "刘玉翠", "萧峰", "慕容复"] 电视剧
03内地胡军版电视剧 ["电视剧", "803", "古装", "于敏", "迪丽热巴", "鞠觉亮", "周晓文", "赵箭", "林志颖", "12", "11", "22", "金鹰奖", "天龙八部", "高虎", "胡军", "刘涛", "陈好", "张纪中", "优秀作品"] 电视剧
82版香港电视剧 ["虚竹", "1982", "天龙八部", "神剑", "黄日华", "黄杏秀", "之六脉", "萧笙", "梁家仁", "汤镇业", "陈玉莲", "石修", "TVB", "03", "22", "传奇", "武侠", "中国香港", "香港", "乔峰"] 电视剧
黄玉郎改编的漫画 ["武林", "乔峰", "帮主", "黄玉郎", "天龙八部", "威名", "丐帮", "虚竹", "段家", "英雄辈出", "大宋", "他族", "大帮", "北乔峰", "之妻", "康敏", "堕地", "段誉", "胡绍权", "风云际会"] 漫画
腾讯动漫的漫画 ["漫画作品", "天龙八部", "连载", "腾讯", "动漫", "凤凰", "娱乐", "创作"] 漫画
…… …… ……

       得到上述列表后易知,无论是“97黄日华版电视剧”,还是“03内地胡军版电视剧”,肯能是“82版香港电视剧”它们都属于“电视剧”概念,它们都都前要聚类成为“电视剧”你什儿 概念类别。同理” 黄玉郎改编的漫画”和”腾讯动漫的漫画”也都前要聚类成为“漫画”你什儿 概念类别。但会 对属于同就说 我 概念的含义都前要进行归并操作,即” 97黄日华版电视剧”、“03内地胡军版电视剧”和” 82版香港电视剧”都前要,可得如下的概念归并后的



图3 概念归并后的词组

2.4 概念消歧

       文本概念消歧分为就说 我 步骤,第一步获得含义的文本向量,第二步是计算文本向量间余弦类式于度来判断目标文本中命名实体属于哪个概念 (余弦类式于度概念见术语解释)。

       首先介绍第一步获得概念文本向量和目标文本向量。“电视剧”概念对应的关键词词组为["1997", "李添胜", "天龙八部", "黄日华", "樊少皇", "张国强", "陈浩民", "李若彤",……],假设"1997"对应的词向量为w1, "李添胜"对应的词向量为w2, "天龙八部"对应的词向量为w3,……。那末 亲戚亲戚朋友都前要定义“97黄日华版电视剧”的概念文本向量T1 =(w1+w2+…wn)/n。对目标文本“港版天龙八部还是经典啊,黄日华才演出萧峰的气质”先进行jieba分词处里得到关键词,但会 按上述步骤处里可获得目标文本向量。

       通过余弦类式于度计算让他发现目标文本向量和”电视剧”概念向量文本余弦类式于度最大,什么都有目标文本中的概念应该对应“电视剧”你什儿 概念。本文使用某开源的中文词向量进行文本到向量数值的映射,此开源的中文词向量的维度为80维度,含晒 几乎所有的中文词语和流行术语。

3.1 命名实体

       命名实体(英语:Named Entity),主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是都前要用专有名词(名称)标识的事物,就说 我 命名实体一般代表唯一就说 我 具体事物个体,包括人名、地名等。类式于人名“爱因斯坦”、“牛顿”,地名“北京、“纽约”,机构名“好未来”,“清华大学”等都算就说 我 命名实体。对命名实体的处里是NLP(英语Natural Language Processing,自然语言处里)领域就说 我 重要的研究方向。

3.2 词向量

       词向量(Word embedding),又叫Word嵌入式自然语言处里(NLP)中的一组语言建模和形态习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

3.3 余弦类式于度

       余弦类式于度通过测量就说 我 向量内积空间的夹角的余弦值来度量它们之间的类式于性。0度角的余弦值是1,而但会 任何深层的余弦值也有大于1。用向量空间中就说 我 向量夹角的余弦值作为衡量就说 我 个体间差异的大小的度量,也就说 我 衡量就说 我 向量在方向上的差别。

       当然在词类归并计算的然后 还存在概念重复的情況,类式于天龙八部词条中再次出现“1977年香港电视剧”、“2013年大陆影视剧”这然后 按本文法子找到就说 我 “不同”的概念,即“电视剧“和”影视剧“,显然就说 我 数据再次出现冗余。当然你什儿 文本也是有处里方案的,都前要通过概念类式于度计算、肯能关键词聚类来进一步优化得到的概念数据,使得亲戚亲戚朋友得到的概念数据中不再次出现上述的问提。最后希望本文能帮助到广大的NLPer在文本处里。