The method of automatic acquisition of semantic relations

Page 1

Scientific Journal of Control Engineering June 2013, Volume 3 Issue 3, PP.242-246

The Method of Automatic Acquisition of Semantic Relations Niguang Tian School of Computer Science and Technology, Hubei University of Science and Technology, Xianning 430075, China Email: 12650812@qq.com

Abstract This paper describes a semantic relation database, and uses the semantic relation database automatic acquisition of syntactic patterns and new relationships, and syntactic patterns to obtain a method of semantic relations. Keywords: natural language processing, semantic, Syntactic pattern

浅谈语义关系的自动获取方法 田霓光 湖北科技学院 计算机科学与技术学院,湖北 咸宁 430075 摘

要:本文描述了汉语字词之间的语义关系库,并利用语义关系库自动获取句法模式和新的关系,并用句法模式实现

了一个语义关系的获取方法。 关键词:自然语言处理;语义关系;句法模式

引言 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自 然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系, 但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计 算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。 大约 90 年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是: (1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系 统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。 (2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行 深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自 动提取重要信息,进行自动摘要等等。 同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强。 (1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统 计性质的基础。没有它们,统计方法只能是无源之水。 (2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息(如 包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。 综合以上观点,我认为要想获得新的突破,靠现有的方法是远远不够的。因此,本文利用语义关系和词 间关系,实现了一个语义关系的获取方法。 - 242 http://www.sj-ce.org/


1 语义关系和句法模式 1.1 字词间的语义关系 语义关系是一个实词跟其他实词之间发生语义关系的能力,所有依赖于关系构成了一个巨大的语义网络。 定义 1 词间关系 词间关系是词与词之间具有某种语义关系的联系。这里的 W 是非空集合,R 是在 W 上的二元关系。W 的元素叫做节点或世界,而 R 叫做可及关系。 假设 w 是所有词的集合,那么 R 是 W 上所有具有某种语义联系的词的偶对集合。很明显,R 是 w×W 的一个子集,有 R 属于 w×W。 例如,词 w1 与 w2 是 W 中的两个元素,若它们之间在语义上具有某种确定的关系 R(如同义、反义等), 则称它们之间具有语义关系 R,记为 w1Rw2。 本文定义的词间主要的语义关联描述有: (1)Rs:从属,面向对象的继承,表示 Rs 为{<父亲,儿子>父亲∈W∧儿子∈W∧儿子是所有人的父 亲}。说明:这种关系是自反的,反对称的,传递的,所以是 W 半序关系。 (2)RComp:组合,就是整体与部分的关系,表示{<整体,部分>整体∈W∧部分∈W∧部分是整体的组 合}。 (3)Raction:主体,动作行为的发出者或经验者,他打开电视|小张生病了|狂风刮倒了房子。性状的发出 者或经历者,雪白的百合|李四对张三很热情。 (4)Rtihings:与事,事件中的受益者或受损者,他给我一本书|李四偷走了张某一百块钱。 (5)RPremises:处所,事件主(客)体的空间位置,他经常睡沙发|河边站着两个人|字写在黑板上。 (6)Rsynonym:同义,词义相同或相近。说明:这意味着相同或类似的这种关系是自反,对称和传递的, 因此 W 上的等价关系,所有的同义字构成一个分区上的 W,W 被划分成若干等价类。 上面定义的几种方法部分从面向对象的思想之间的关系,这是现有的 Word Net 的,并且可以自动生成演 绎、归纳和其他特性。这样做的一个词代表具体的事情看作是对象代表的身体作为一个单独的类,一个字, 字与字之间中产生的最广泛使用的面向对象的关系,最直接的关系是第二承相结合,相关联的一些特点的子 类可以继承自父类的系统自动推断的基本特征的子类同样地,该系统可以在父类中总结下子类的话,如果他 们有某种相同属性的词或字操作,然后,Word 会自动在父类的。

1.2 句法模式 句法模式是一种语言,用来匹配语料库中的句子之间的关系。例:“a 是一种 b”或“a 是 b 的一种”, 也就是两个用来发现模式的继承关系。 本文中模式的书写规则形式描述如下: (1)( ),里面的词描述了一个取值范围,如(父亲)代表继承关系中父类集合中的某个词。 (2)+,代表 1 个或多个正好在它之前的那个字符,如 a+代表 a、aa、aaa 等。 (3)* ,代表零个或多个任意字符串。 (4)$,代表行结束符,如“。$”能够匹配字符串“那里有一堆水果。”的句尾。此符号在后文中 主要用来断句。 (5)&,代表与的关系,如(父亲 & N.)表示既符合父类又是名词的一个取值。 (6)|,代表 或的关系,如( 、| 。)表示顿号或句号。 在语料库中的一个实例:S =软玉主要是由透闪石、阳起石等组成的一种矿物。 ———语料来自新华网 以上书写规则对应的模式为:M =(整体 & 儿子)是由((部分)、),+(部分)等组成的一种(父 - 243 http://www.sj-ce.org/


亲)。 另外,模式也有好坏之分。通过好的模式可以发现新的正确的关系。比如通过以上模式发现了语料中的 三个关系:R comp:软玉—透闪石,软玉—阳起石;Rs:软玉—矿物。

2 语义关系的获取方法 2.1 问题陈述 定义 2 词是语义代表概念实体的最小单元,其可以单独使用。 定义 3 句子是能够表达一个完整的意思,由第 m 个字 w 有序的集合,一般穿插在句末用一个句号,问 号,省略号,一个感叹号等结束,记为 S= { w w1 w2 „ wm }。 定义 4 文章是由 n 个句子 S 与段落标记的有序集合,A= { S

S1 S2 „ Sn }。

定义 5 语料库由 p 的文章不重复的 A 文章的集合,D = { A A1 A2 „ Ap }。 假设已知: (1)自然语言中存在某些确定的词间关系 R1,R2,„,这里用 Ri 统一表示。 (2)已有一些词间关系 Ri 的子集 Ri′,其中:Ri′Ri。 (3)大规模语料库 D。如何利用已知的 Ri′和 D 扩充 Ri′为 Ri″,使得 Ri′∈Ri″且 Ri″/Ri 趋向于Φ (即如何利用已知的关系 Ri′从 D 中得到尽可能多的未知关系)。

2.2 问题分析 既然 R 是词间广泛存在的某种关系,这种关系又是存在于自然语言中的本质属性,那么 R 必然在自然语 言中有所体现。一个比较具体的例子是:现有大规模语料库 D1,保存有大量不同种类的常见文本。其中: 句子 S1,S2∈D1,且 S1 和 S2 的内容为: S1= 20 年代初,天津马路上交通混杂,据当时新闻报道,天津马路上“每天要都通过五花八门的车辆— —汽车、卡车、电车、电动车、三轮车„„以及黑压压的行人”。 S2 =最高与最矮的、最多与最少的,以及最自由散漫的行人。 若在分析此段语料之前,已有关于“车”的关系的记录,保存在两张表中,如表 1、2 所示。 表 1 相关词

synonym

antonym

车 辆

/

/

/

……

……

……

grammar

…….

表 2 相 关 词 交通

关 系

相 关 词

关 系

Ris-a

马路

Rgeneral

汽车

Ris-a

速度

Rattr

卡车

Ris-a

速度

Rattr-v

电车

Ris-a

速度

Rattr-v

……

……

可见,需要做的就是找到一些种算法从语料库 D 自动化的有效模式,然后利用各种模式找到更多的单词, 从而扩大现有的关系集。 - 244 http://www.sj-ce.org/


2.3 语义的获取算法 对语料库 D 中的所有文章 A 进行预处理、断句、分词,得到所有句子的集合 S,并将所有句子的集合进 行自动编号,如表 3 所示。 表3

关于句子的表

ID

sentence

1

20 年代初,天津马路上交通混杂,据当时新闻报道,天津马路上“每天要都通过五花八门的车辆—— 汽车、卡车、电车、电动车、三轮车„„以及黑压压的行人”。

2

最高与最矮的、最多与最少的,以及最自由散漫的行人。

3

……

表 3 中一共有 m 个句子,在此表中每个单词数句是建立一个 m 位的二进制索引值,每个索引值的第 I 个为 0(或 1) ,这个词没有(或有)在第 i 篇文章出现这种车辆在句子 S1,S2。在 S2 中没有出现过,则末 两位为 01。结果如表 4 所示。 表 4 item_ID

实验结果

Item

inverted _Index

1

车辆

xxx…xxx01

2

行人

xxx…xxx11

3

……

……

因此,在系统中查询一个单词在句子中出现,删除一个 1 比特的数字值可以被简单地读出的单词。 在实际使用中,多个 R,有一定的关系在 Wi 称为词语,然后的 Wi∈R,其表示的 Wsearch,它们被用作 一个关键字查询立即需要在同一时间,在哪个句子可以对它们进行查询结果: 结果= AND i∈Wsearch inverted_Indexi,导致为代表的二进制字符串的结果,可以得到最后的价值序列号读 出符合要求的句子下一步,发现去噪预处理,标记,关系代词的句子更换冗余信息截肢后的工作,你可以得 到一个模式提取的句型都将导致整理,读出句子对应的序列号,记录初始表中的句子,满足最初的需求记录 在表中。 1

多个词合并的算法 将所有具有两两的操作在同一个 W 且非零值的结果进行,并且所得到的结果为 1 的位来表示三个句子相

关词语同时出。 重复以上两两相运行,以确定新的结果同时出现几个相关词的句子,直到结果是全零或只有一个结果至今。 2

句中提取模式的算法 整理的序列号对应的句子记录在初始表,初始全部要求的句子读的所有结果记录在表中。表项主要有: 句子序号 S_ ID

使用的关系 R

已分词的句子 S

根据这个初始表,找到句子的词性标注,关系代词,你可以得到一个模式的变化。将模式记录在一张模 式表中: 模式序号 M_ ID

模式 M

出现次数 F

此同时注意合并同类模式并记录相同模式出现的次数 T。 - 245 http://www.sj-ce.org/

原句 ID 列 表


由于在实际使用中的自然语言处理的多样性,也得到了很多毫无意义的模式,可以使用基于统计的方法 来消除歧义出现的概率非常小的模式和关系视为无效。

3 实验及其结果 可用于各种相关语义库的方法,如手动采集,结合程序自动导入现有的关系列表,完成库收购的初始关 系的建立准备随后的自动采矿。 关于最后使用上面的方法编写 PHP 程序实现的发现模式和关系经历了最初的模式的过程如下,有效模式 的初始关系,有效的关系。

4 结束语 基于目前的现状和缺乏自然语言处理,建筑地基称为的重要性的知识基础和语义库和具体的半自动施工 方法,计算机检索和分类的语义水平有一个可行的方法后的实验中,该方法可以大大提高了施工效率的语义 关系,并在一定程度质量保证程度。其实,自然语言之间很多关系不能准确分类或不明显,在系统实现中, 唯一的二元关系建模也暴露了一些不足之处,以后的工作将专注于语义关系模型的改进。

致谢 本文是在程伟老师的热情关心和指导下完成的,他渊博的知识和严谨的治学作风使我受益匪浅,对顺利 完成本论文起到了极大的作用。在此向他表示我最衷心的感谢!

REFERENCES [1]

ZHANG Kuo, WU Gang, LI Juan-zi. Logical structure based seman-tic relationship extraction from semi-structured documents[C]// Procof the 15th International Conference on World Wide Web. New York:ACM Press, 2006: 1063-1064

[2]

BERRY M J A, LINDFF G S. data mining technology[M]. Beijing: Mechanical Industry Press, 2006

[3]

Dai Ru. Science of social intelligence[M]. Shanghai: Shanghai Jiao Tong University press, 2007

[4]

Cao Jing. Synonyms mining in the conceptual information retrieval system of applied research[D]. Changchun: Northeast Normal University, 2006

[5]

Rao Yining, Liu Qiang, Du Xiaoli, et al. Support intelligent search since extended knowledge base model research and design[J]. Application Research of computers, 2006, 23(6): 223-226

[6]

ftp:/ftp.cogsci.princeton.Lx:lu/pub/'word net/5papers.ps, 2005, 02

[7]

XIA Sun, ZHENG Qing-hua. An approach to acquire semantic relationships between terms[C]//Proc of ACM Symposium on AppliedComputing. New York: ACM Press, 2005: 1630-1633

[8]

Liang Nanyuan. Written Chinese automatic segmentation system -- CDWS[J]. Journal of Chinese information,1987, 1 (2): 44-52

【作者简介】 田霓光(1976-),女,汉,硕士,讲师,研究方向:自然语言处理。2002 年毕业于湖北大学计算机应用 学士,2011 年毕业于武汉大学硕士。Email: 12650812@qq.com

- 246 http://www.sj-ce.org/


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.