[图文]中文系列讲座――西方传教士编撰的闽方言文献的挖掘与研究           ★★★ 【字体:
[本科毕业论文]句子重要度的度量及实现

  发布时间: 2011-11-18   信息员:    浏览次数: 1519

 

   摘要: 本文主要讨论了单文档中文句子重要度的度量方法,通过基于标题相似度计算和基于有效词权重的句子重要度计算,并综合了句子的位置信息以及提示语等方法来计算句子的重要度。虽然只对句子外在的形式特征进行考虑与分析,但也取得了较准确的实验结果。

 

关键词: 句子重要度 向量空间模型  相似度  TFIDF  权重

 

 

Weighting the Importance of Sentences

 

Abstract: This paper mainly describes that the measuring method of the importance of Chinese sentence in single document. It measures the importance of sentence through the method that based on the calculating of the similarity between goals sentence and the title of the document and the method based on feature weighting together with the position of sentence and the prompt words.Although just

considering the external structure of sentence, it get a good experimental result.

 

Key words:  importance of sentence; vector space model; similarity; TFIDF; weighting

 

 

目录

 

 

1 引言-----------------------------------------------------------4

2 与标题相似度的计算---------------------------------------------4

2.1 向量空间模型----------------------------------------------4

2.2 有效词权重的计算------------------------------------------5

2.3 相似度的计算----------------------------------------------5

3 基于有效词权重的句子重要度计算---------------------------------5

4 衡量句子权重的其他因素-----------------------------------------6

4.1 基于位置方法的句子权重------------------------------------6

4.2 基于提示语的句子权重--------------------------------------6

5 实验与结果-----------------------------------------------------6

   5.1 实验步骤--------------------------------------------------6

5.2 实验评估方法和指标----------------------------------------7

5.3 实验结果--------------------------------------------------7

6 结束语---------------------------------------------------------7

致谢语-----------------------------------------------------------8

参考文献---------------------------------------------------------8

 

 

1引言

随着计算机的普及和互联网的兴起以及科学技术的发展,人们对各种信息资源的交流也频繁了起来,为了达到减少信息的传输量和方便人们交流信息的目的,人们也开始深入研究如何利用计算机从给定的原始信息或者文献中抽抽取出最能表达出原始信息中心内容的句子,即所谓的自动文摘。

自动文摘技术的研究最早开始于20世纪50年代末,随后出现了基于文本表层物理信息(词的频率、词的位置、句子的位置、文本中小标题等)分析的机械文摘方法和基于自然语言理解的理解文摘研究。进入90年代以来,随着互联网的兴起与普及,人们认识到了自动文摘的价值,因此越来越多的学者从计算语言学、认知心理学、情报科学等不同方面对自动文摘进行了研究,大大推动了自动文摘技术的发展并将这一技术广泛应用于图书文献管理、情报检索、大型机构文件分类、军事文本的搜集和整理等许多领域。

目前,机械自动文摘的技术已经发展得较为成熟和完善,一直以来都是自动文摘领域中最重要的解决途径之一。所谓的机械自动文摘是指利用计算机通过分析文本各种表层、外在的形式特征而抽取出原文中部分重要度较高的句子,并依据句子出现的先后顺序排列组成简洁连贯的短文作为文本的摘要。因此如何去准确地去衡量一个句子在一个文档中的重要度便成为机械文摘准确度高低的关键所在。

每个文本都包含有若干个句子,有些句子相对较长,有些句子相对较短;有些句子能将本文本与其他文本很好地区分开来,有些句子则对区分性贡献不大;有些句子能反映出文本中心内容,而有些句子对于文本中心内容则无关紧要。每个句子的作用或大或小,如何去对每个句子的重要性加以度量并得出能较为准确反映出文本内容的句子?

本文讨论的句子权重主要从目标句子与文本标题的相似度、目标句子中的各个有效词的统计特性、目标句子的位置信息以及目标句子的长度等一些外在特征进行统计并进行相应的加权,综合起来得出句子的重要度。

2 与标题相似度的计算

2.1 向量空间模型

常言道:文好题一半。一般来说,文本的标题是一个文本的精华部分,是最能体现出文本的主要内容和中心思想的句子,因此我们认为与标题相似度高的句子重要度应该高些,反之,则重要度应该低些。在这里,我们通过构建一个向量空间模型(Vector Space Model ,VSM[]来计算出目标句子与标题的相似度,其中涉及到的有效词权重方面的计算这里采用的是TFIDF[]方法(有效词的定义见下一页)。这种方法不仅能较为准确地计算出结果,而且简化了计算过程,使得问题的复杂性大大降低。

向量空间模型是由Salton等人于60年代末提出的,这是最早也是最出名的信息检索方面的数学模型。在向量空间模型中,每个句子S都被表示成一个n维向量, 形如S =< T1, T2, T3, T4,……Tn>, 其中每个分量Ti ( i = 1 ,2 , ……, n) 为句子S 中第i个有效词在句子中的权重[]值。假设有标题句子S和目标句子S, 分别被表示为两个n维向量空间S =< T1, T2, T3, T4,……Tn>S =< T1, T2, T3, T4,……Tn>SS的夹角为θ,如图(1)所示:

图(1

则两个句子之间的相似度就可以利用SS这两个向量之间夹角的余弦值来表示,即:

                

 

如果句子间夹角越小即其余弦值越大说明目标句子与标题句子的相似度越高,也就是目标句子的重要度越高。向量中的每一维都是由有效词的权重值即TFIDF 值来确定,因此有效词的权重计算对相似度的影响很大。

2.2 有效词权重的计算

     本文中有效词的含义指的是句子经过分词之后再过滤掉重复词与停用词最后保留下来的词语的集合。假如两个句子中包含的所有的有效词为W1, W2, W3, W4,……Wn,则每个句子都可以用一个形如S =< T1, T2, T3, T4,……Tn>n维的向量来表示。其中,其中Ti(其中i的取值范围位于[1,n]这个区间里)代表有效词的权重,对于Ti的计算方法常用的有以下几种方法:

①布尔函数:

                                           

②开方函数:

                                                             

TFIDF函数:

                                                 

其中Ti为第i个有效词在句子中的权重,tfi为第i个有效词在句子中出现的次数,mi为文本中含有第i个有效词的句子的个数,M为文本中句子的总数。

这里我们采用效果较好的第三种方法即TFIDF方法来计算。从TFIDF这个公式中可以看出,有效词的权重和有效词在句子中出现的频率成正比,和含有有效词的句子个数成反比。和布尔函数、开方函数相比最大的不同在于前二者只单独考虑了词语的tf值,而这种方法综合地考虑了一个词的出现频率tf和倒转文档频率idf,防止某一些在文本中出现频率很高但却对突出文本主题没有实质性意义的词语计算出来的权重值反而高的现象的发生。例如,某个目标句子“的”出现的频率很高,即其tf值很大,但由于“的”在很多句子中都出现,它对于我们辨别句子相似度和句子加权方面没有太大的帮助,如果单独考虑其tf值便会出现它的权重值与其对句子重要度的贡献或者与文本主题的相关度不成正比,而如果加入idf这个参数,由于“的”在很多句子中都出现,其mi值很大,则由公式④可以知道Log(M/mi)是一个位于[0,Log(M)]区间内的数值,且随着M/mi越趋向于1Log(M/mi)就越趋向于0,即“的”的idf值将是一个很接近0的数,因此tfidf的积也会是一个很小的值。

2.3 相似度的计算

两个句子之间的相似度计算我们可以通过公式④和公式①计算出来,当然,我们可以将公式①表示成如下形式:

                           

假如有标题句子S和目标句子S’,分别被表示为两个n为向量空间S =< T1, T2, T3, T4,……Tn>S =< T1, T2, T3, T4,……Tn>,我们先通过公式④即TFIDF方法确定出SS’中每个分量的值,再通过公式⑤计算出两个向量之间的夹角大小,进而得出两个向量相似度的值。

3 基于有效词权重的句子重要度计算

句子自身的特征是衡量句子重要程度的一个重要的参数,仅仅使用基于标题相似度的方法来衡量句子重要度虽然可以一定程度上地反映出句子的重度,但是,这种方法的计算结果的准确度高低对标题质量好坏的依赖性相当大,假如文本没有标题或者是标题与文本内容的相关性很小,此时这种方法的作用就微乎其微了。因此为了提高句子重要度计算的准确度,本文加入了根据句子本身的特征即有效词权重这个因素来进一步对句子自身重要度进行度量。我们先计算出句子中每个有效词在文档中的权重值,然后根据这个值来进一步衡量句子的重要度。计算方法是首先统计每个有效词的TF值和IDF,然后计算出句中所有有效词的TFIDF值,最后进行归一化处理得出的结果便是句子的重要度,其计算公式如下:

 

                                              ⑥

其中Imp(si)表示文档中第i个句子的重要度,tf ( t) 代表词的频率, idf ( t) 代表倒转文档频率,分母则是用来进行归一化处理的参数。

4 衡量句子权重的其他因素

以上我们主要是用基于标题的方法即预先假定文档标题能够一定程度上地反映出文档主要内容,再通过目标句子和标题的相似度来衡量句子的重要度,之后我们又加入了基于有效词权重的句子重要度度量方法,或多或少地消除了当标题质量不好时对于计算结果的影响。然而这这种方法(公式⑥)对于衡量句子重要度虽然能取得较好的效果,但是也存在着缺陷。一般来说,长度较长的句子所含的词语多,较短的句子所含词语数量较少,而在这个公式中,很明显,词语较多的句子计算出来的句子重要度会比词语少的句子来得大。虽然长句子蕴含的信息量会比短句子丰富,然而,丰富的信息量却未必都能突出反映文档的最终的中心内容。因此,为了进一步提高计算结果的准确度,这里我们又利用其他两个方法来分析句子并进行加权计算,这两个方法就是位置方法和提示语方法。

4.1 基于位置方法的句子权重

所谓位置方法,就是根据句子在整个文本中或者段落中所处的位置信息赋予相应的权重。我们知道,一般的传统文本中,处于文本篇首或者篇末的句子通常都和文本主要内容相关度比较高,每个段落的首句和末句和段落大意相关度也比较高,因此这些句子的重要度应该比较高些。当然,句子所处段落的重要度的高低也是我们考虑的因素之一,比如处于文本首段或者末段的段落一般都是总结文本的大意,因此处于这些段落中的句字重要度也要大些。在这里我们是这样赋予这些句子权重的,如:文本首句或者末句的加0.5,第二句或者倒数第二句加0.3,文本段落首句或者末句的加0.05等等,取值一般定于[01]这个区间内,而具体我们应该通过大量的实验并对实验数据进行分析比较而得出最佳数值。

4.2 基于提示语的句子权重

在一些文档中经常出现一些具有标志性意义的提示语,诸如 综上所述”“总而言之等等一些词汇。这些词汇所引导出来的句子往往都是对整个文档或者某个段落的总结概括,一般都包含着相对较多重要的信息,因此,我们应该赋予这类型的句子一定的权重。当然,要利用提示语这种方法来衡量句子的重要度,我们必须去收集、整理、创建一个这类词语的词典。由于时间原因,本文的实现程序中暂未加入这个因素。

5 实验与结果

5.1 实验步骤

本文的实验步骤包括:

(1)       收集用于实验的文本样本:本实验所有文本样本均是从互联网上收集而来的涵盖经济、体育、文化、IT、环境等方面的20个文本。

(2)       自动分词:本实验使用的是由vgoogle.net提供的中文自动分词组件。

(3)       过滤重复词:对出现两次或者两次以上词语仅保留一个作为有效词以提高计算结果的准确度和程序效率。

(4)       删除停用词:收集整理并创建一个诸如“得”、“的”之类对句子语义影响不大的词语的字典,在有效词的处理过程中删除掉这些词语。

(5)       根据句子本身有效词的权重进一步进行句子重要度的计算:这里使用公式⑥。

(6)       最终综合以上几个步骤得出总的句子重要度,即:

                                          

 

5.2 实验评估方法和指标

先人工从每篇文本中挑选出与文本主要内容相关度最高的前三个句子作为一个集合记作A,然后同样利用公式⑦挑选出与文本主要内容相关度最高的前三个句子组成集合,记为B,集合C=ABn为集合C中的元素个数。最终以集合C中的元素个数n所对应的文本数占总文本数的百分比作为评估指标。

5.3 实验结果

1  实验结果

      n

 

公式   

     n=0

n=1

n=2

n=3

文本数

百分比

文本数

百分比

文本数

百分比

文本数

百分比

TotalImp(s i )

 0

0%

 10

50%

 10

50%

  0

0%

 

 

 

 

 

 

从以上实验数据可以看出,这种综合了多种因素的句子重要度计算的准确度是相对准确的。当然,由于本实验过程中人工挑选句子重要度较高的句子时主观性太强且用于实验的文本样本相对较少,因此本实验的结果准确度还有待进一步提高。

6 结束语

    本文中我们主要讨论通过构建向量空间模型进而对目标句子与标题句子相似度进行计算以及通过对句子本身的有效词权重计算来实现对句子重要度的度量。在计算过程中本文主要通过TFIDF方法来计算有效词的权重值,这种方法有其长处也有其短处。长处是TFIDF方法综合考虑了不同的有效词在句子中的出现频率(tf)和这个词在整个文本中的倒转文档频率(idf)。这种方法不需要对文本内容进行深层理解,计算起来简单快捷,并且一般来说都能取得较准确的结果。短处是TFIDF方法只有当句子所包含的词比较多时效果才好。因为TFIDF是一种统计的方法,只有当句子包含的词数越多,相关的词才会重复出现,这种统计方法的效果才能体现出来。由于本人水平有限,计算过程中只考虑了有效词在文本中的统计特性和文本的外在的结构、形式特征,因为没有训练语料和测试语料,所以各种参数的调试有待在大的训练语料中进一步测试,同时因为知识库的缺乏,本软件没有考虑词本身的语义信息,也没运用语法知识对文本进行系统的分析。因此,这种计算方法还有待进一步加强和完善。

 

 致谢语

    由于本人第一次接触计算语言学领域的问题,且此问题涉及到较多的非语言学领域的知识如数学、计算机等,因此在写这篇论文时遇到不少困难,得到了很多来自不同领域老师、同学、朋友的帮助,在此表示诚挚谢意。在此感谢郑泽芝老师在选题、资料收集、实验以及论文修改等方面给予的耐心帮助和悉心指导,感谢厦门大学数学系学生许朝源在数学计算上的帮助,感谢中科院沈阳自动化所博士生周习蜂在有效词权重计算方面给予的指导和建议,感谢华侨大学华文学院对外汉语专业学生学生吴竟羽和厦门大学中文系学生邰晓安在实验材料的收集与分析给予的热心帮助,感谢vgoogle.net提供中文自动分词组件以及大学四年来传授我知识的所有老师和热心帮助我的所有同学。

 

参考文献

[1] 董小国 甘立国. 基于句子重要度的特征项权重计算方法. [J].计算机与数字工程,2006 ,(8):3537.

[2] 余正涛 樊孝忠 宋丽哲 高盛祥. 汉语问答系统答案提取方法研究. [J].计算机工程,2006 ,(3):183185.

[3] 张 奇 黄萱菁 吴立德. 一种新的句子相似度度量及其在文本自动摘要中的应用. [J].中文信息学报,2005 ,(2):9399.

[4] 金 博  史彦军  滕弘飞  艾景波. 自动文摘技术及应用. [J]. 自动文摘技术及应用,2004 ,(12):1315.

[5] 王 萌  何婷婷  姬东鸿  王晓荣. 基于HowNet概念获取的中文自动文摘系统. [J]. 中文信息报,2005 ,(3):8793.

[6] 陈志敏 沈 洁  林 颖  周 峰. 基于主题划分的网页自动摘要. [J]. 计算机应用,2006 ,(3):640645.

[7] 胡佳妮 徐蔚然  郭 军  邓伟洪. 中文文本分类中的特征选择算法研究. [J]. 光通信研究,2005 ,(3):4446.

[8] 姚慕生.高等代数.[M].上海:复旦大学出版社.20029295.

 



向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1W1T2W2TnWn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。

[] TF:有效词频率指数(Term Frequency)IDF:逆文本频率指数Inverse document frequency),其计算公式为IDF=log(M/m),其中M为文本中句子总数,m为含有某个有效词的句子总数。IDF的概念最早是剑桥大学的斯巴克-琼斯提出的,她并从理论上解释为什么权重IDF 应该是对数函数log(M/m),现在信息论的学者们已经发现并指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)

[] 本文中提及的权重指的是有效词在句子中或者句子在文本中的相对重要程度。

作品录入:xwzumx    责任编辑:xwzumx 
  • 最新热点 最新推荐 相关文章
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)