“只你唯一”相近的句子

| 中西医助理医师 |

【www.guakaob.com--中西医助理医师】

“只你唯一”相近的句子篇一
《关联词以及相关句子》

注(前3个是课文出现过的关联词语)

1、任凭功课再忙,我们也要抽时间锻炼身体。任凭你说的天花乱坠,我也不上你的当。

2、我就不相信这道题那么难,今天我非做出来不可。

3、无论天气有多冷,我也要上学。

无论家里怎么困难,父母也要送小明去读书。

4、这朵花既美又香。(并列关系)

5、他不仅学习好,而且工作好。(递进关系)

6、小刚不是忘记带钢笔,就是忘记戴红领巾(选择关系)

我们下课不是玩游戏,就是打篮球。

7、虽然他长得很丑,但是心地很善良。(转折关系)

8、因为这本书写得太精彩了,所以大家都喜欢看。(因果关系)

9、如果明天下雨,运动会就不举行了。(假设关系)

10、只要努力学习,就会取得好成绩。(条件关系)

修辞手法造句

(课文出现过的修辞手法)

1、荷叶挨挨挤挤的,像一个个碧绿的大圆盘。(比喻句)

2、春天来了,桃花笑红了脸。(拟人句)

3、下课了,同学们有的在跳绳,有的在打篮球,有的在做游戏,瞧,他们玩得多开心啊!(排比)

4、是谁养育了我们?是我们的父母!(设问)

5、这难道不是伟大的奇观么?(反问)

6、家里静得出奇,连一根针掉到地上的声音都能听得清清楚楚。(夸张)

他种的花很香,几十里外就能闻到花香了。

十二、古诗名句运用篇

今册学过的古诗名句该如何运用

(1)“盛年不重来,一日难再晨,及时当勉励,岁月不待人。”是啊,燕子去了,有再来的时候;杨柳枯了,有再青的时候;桃花谢了,有再开的时候。我们的日子呢,却是一去不复返。不抓住今天,永远期盼着明天,幸运会向你招手吗?

(2)昨天下午,张老师布置了一道数学思考题。晚上,我绞尽脑汁,百思不得其解,就在我“踏破铁鞋无觅处”时,爸爸走了过来,助我一臂之力,经他一点拨,我豁然开朗,真是“山重水复疑无路,柳岸花明又一村”,于是迅速地解开了这道难题。

(3)我们的老师指导大家写作时,常常引用宋代著名诗人苏轼的《题西林壁》中的两句诗,“横看成岭侧成峰,远近高低各不同”,强调习作是心灵的放飞,是情感的释放,写法要不拘一格,语言要有自己的个性。

(4)月亮渐渐西沉,星星又悄悄地眨起了眼睛。望着满天星星,我不由得想起了爸爸白天对我说的话,是啊,“有志者事竟成”。爸爸,请你放心,我不会让你失望的。

(5)我知道的名言:少壮不努力,老大徒伤悲。学而不厌,诲人不倦。

(6)俗话说:“当局者迷”。说明这个道理的诗句是:“不识庐山真面目,只缘身在此山中。 ”

(7)形容给人带来意想不到的惊喜的诗句是“忽如一夜春风来,千树万树梨花开”。

(8)唐•李白与友人送别时,写下了“孤帆远影碧空尽,唯见长江天际流,”表达了与友人依依惜别之情!

(9)唐•王维与友人送别时,写下了“劝君更尽一杯酒,西出阳关无故人,”表达了与友人依依惜别之情!

“只你唯一”相近的句子篇二
《读完这50个耐人寻味的句子,也许能让你找到一个不一样的自己》

读完这50个耐人寻味的句子,也许能让你找到一个不一样的自己 引导语:人一生有起有落,起的时候不忘落的时候,落的时候想想起的时候,哪里跌倒,哪里站起。相信有自信的生命与没自信的生命会有不一样的天地。读完下面50个耐人深思的句子,也许能让你找到一个不一样的自己!

1、 有人说,爱的反面不是恨,而是淡漠,淡漠,意味着心里不再有对方的位置,而不再想起。没有余恨,没有深情,更没有力气和心思再做哪怕多壹点的纠缠,所有剩下的,都是无谓。

2 、男的忽悠女的,叫挑逗。女的忽悠男的,叫勾引,男女互相忽悠叫爱情。父母忽悠孩子,叫教育。孩子忽悠父母叫欺骗。互相忽悠,叫代沟。

3 、走过山山水水,脚下高高底底;经历风风雨雨,还是寻寻觅觅,获得多多少少,失去点点滴滴,重要开开心心!

4、 叶子的离开 不是风的追求 也不是树的不挽留 而是命运的安排 自然的选择 该来的会来 该走的会走 有时 离开并不意味着结束 而是另一种开始。

5、 拥抱真是个奇怪的东西,明明离得那么近,却看不见彼此的脸。

6、 结婚是爱情的坟墓,如果不结婚,爱情就死无葬身之地。

7、 最快乐的人并不是一切东西都是最好的,但他们会充分享受自己已有的东西。

8 、得意时应善待他人,因为你失意时会需要他们。

9 、站在天堂看地狱,人生就象情景剧,站在地狱看天堂,为谁辛苦为谁忙。

10 、美丽的一天让我过得如此糟糕,是我错了还是今天并

不美丽?

11、 我不想做你生命中的插曲,只想做你生命中最完美的结局。

12 、我突然发觉自己是个华丽的木偶,演尽了世间的悲欢离合,却逃不过背后的银色丝线。

13 、有些事儿,不是你努力的不够,而是不够坚定。

14、 生命是充满遗憾的篇章,因为她没有机会让你修改病句。

15、 我的快乐都是微小的事情。

16、 任何一件事情,只要心甘情愿,总是能够变得简单。

17 、短暂的瞬间,漫长的永远。

18 、感情有时候只是一个人的事情。和任何人无关。爱,或者不爱,只能自行了断。

19 、伤口是别人给与的耻辱,自己坚持的幻觉。

20 、我大概是一只鸟。充满了警觉,不容易停留。所以一直在飞。

21、 我的世界是寂静无声的,容纳不下别人。

22 、我们可以失望,但不能盲目。

23 、幸福始终充满着缺陷。

24 、但是快乐太单纯,所以容易破碎。

25、 该笑的时候没有快乐,该哭泣的时候没有眼泪,该相信的时候没有诺言。

26 、我微笑。在任何我难过或者快乐的时候,我只剩下微笑。

27 、如果有过幸福。幸福只是瞬间的片断,一小段一小段。

28 、如果人生是一段旅途,快乐与悲伤就是那两条长长的铁轨,在我身后紧紧跟随。

29 、如果我爱你,我就会理解你,通过你的眼睛去看世界。我能理解你是因为我能在你身上看到我自己,在我身上也看到了你。

“只你唯一”相近的句子篇三
《高一语文 单句和复句相关知识点》

单句和复句相关知识点

第一讲:单句与复句的概念及辨辨

一、课前练习

用恰当的关联词把下面四句话连接起来:

1、张海迪姐姐瘫痪了

2、张海迪姐姐顽强地学习

3、张海迪姐姐学会了多门外语

4、张海迪姐姐学会了针灸

二、知识导入

(一)什 么 是 复 句?

比较以下几个句子:

﹡ 1.我吃饭了。

﹡ 2.我喝汤了。

以上两个句子分别表达了两个意思,是两个单句。

3.我吃饭了,我也喝汤了。

像这样由两个或两个以上单句组成的句子,就叫复句。组成复句的单句叫分句。

(二)单句概念

单句就是指结构和意义比较简单的句子。分两种情况。

定语、状语等)的也是主谓结构,也就是说在句子中还包含着从属或降级的主谓结构。 如:我听说今年大学扩大招生了。“我听说”的宾语“今年大学扩大招生了”是一个主谓结构。

级的主谓结构,但这些主谓结构之间的联系非常紧密(句子中间没有停顿,书面上没有标点符号),也就是说这几个主谓结构说的差不多就是连续发生的同一件事。 如:老师鼓励我考大学。我下了课去图书馆。

(三)复句概念 复句是包含两个或两个以上互不从属的分句的句子,有两个或两个以上主谓结构。

(1)他今天有病没去上班。 (单句)

(2)他今天有病,没去上班。 (复句)

(3)因为他今天有病,所以没去上班。(复句)

(四)复句的特点

1.复句必须具备两套或两套以上的主谓关系结构;只有一套句子结构,不管有多长,中间有多长,中间有多少逗号,仍然是单句。

* 2.复句中的分句,在意义上必须有一定的联系,在意义上没有联系的单句不能组成复句。

* 3.复句中的分句不能作别的分句的任何成分。

* 4.复句的分句,与分句之间,有一定的语音停顿,一般用逗号或分号表示。

(五)如何区分单复句

①复句的分句之间结构上互不包含,就是说互相不作句子成分,没有句子成分之间的结构关系,这是复句的本质特征,也是复句和单句的最根本的区别。

②不能看只有一个主语就断定不是复句。凡是一个主语管几个动词,只要中间用逗号或分号表示停顿,又互不做成分,就是复句。

如:我请假去看病。 (单句)

我请假,去看病。 (复句)

③有些关联词既可以用在复句的不同分句中,也可以用在单句中。

如:只有热爱工作的人,才能热爱生活。(单句)

(六)复句与单句的辨析 (一)句子内部前后互作句子成分,则为单句,否则就是复句。

1、他的话说到我的心坎里了。

2、晚上我和爹爹管西瓜去,你也去。

(二)一个主语若有好几个谓语,用顿号隔开或无标点,则为单句;若用逗号隔开,则为复句。

1

2 (三)关联词语连接的若是词或短语,则为单句;若连接的全是分句,则是复句。

1、只有实践,才是检验真理的唯一标准。

2

三、课后练习

判断单复句

1、它深信,乌云遮不住太阳。

2、这副对联知道的人颇少,有介绍的必要。

3、不久我就离开了母亲,因为我要读书啦。

4、不管在什么情况下,她都遵守纪律。

(1)无论你还是我都不可能完成这项任务。

(2)片面强调政治,而不注重学习,都是不对的。

(3)只有这种知识,这种意志,才是世界上最宝贵的财产。

(4)只有在冬季,我才能看到这种景象。

(5)我们依照规章制度,罚王峰停工三天。

(6)只有共产党,才是领导我们穷人闹翻身的大救星。

(7)发放个人消费贷款,对活跃市场、改善人民生活、扩大有效需求、拉动经济增长发挥了重要作用。

(8)无论谁,都必须遵守纪律。

(9)暴风雨冲过的荒草,象用梳子理过似的,躺倒在烂泥里。

(10)这是普遍真理,任何地区、任何时代都适用的真理。

1、我们知道,如果没有润滑剂来减少磨擦和磨损机器就无法转运。

2、我们知道,他们也知道,只是双方没有通通气。

3、大家都有一支笔,有一张嘴,有什么理由拿出来讲啊!

4、我们要做到有理想,有道德,有文化,守纪律。

5、李先生在昆明被暗杀,是李先生留给昆明的光荣。

6、“一二.一”是昆明的光荣,是云南人民的光荣。

7、毫无疑问,在改革开放的潮流中,我们必须大胆去创新。

8、我们必须从零开始,而且必须循序渐进。

9、 我们必须学多些知识,将来才能有所作为。

10、人在,问题就好办。

11、老师知道小王学习好,小李体育好。

12、同学们兴奋地说笑着,打闹着。

13、他学习努力,身体也好。

14、他推开门,走了进去。

15、他推开门走了进去。

16、我们年级的六个班,都在开会。

17、我们年级有六个班,都在开会。

18、只有社会主义,才能救中国。

19、学习好,思想好,身体好,是三好学生的条件。

20、他们维持他们的“秩序”的监狱,就撕掉了他们的“文明”的面具。

21、我相信,雷锋的榜样,不仅给我们指出了正确的道路,而且加强了我们同一切旧思想,旧习惯坚持斗争的勇气。

第二讲:单层复句

一、复句的类型

根据分句间的意义关系,复句类型

并列,递进,选择,连贯,解说——联合复句

转折,因果,假设,目的,让步,条件——偏正复句

二、复句的构成方式

1)直接组合 2)借助关联作用的词语

三、复句的类型(一):联合关系的复句

1、并列复句

(1)概念:若干个分句相提并论地分别说明几件事,几种情况,或一个事物的几个方面。

(2)关联词

单用的:也 、又、还、同样、同时、以及、另外

搭配用的:不是„„而是 是„„不是 既„„又 一面„„一面 一会儿„„一会儿 一边„„一边 有时„„有时 也„„也

(3)例句:

(4)并列复句的构成

1)直接组合

A.云散了,雨住了。 B.沙漠地区空气干燥,日光照射特别强烈。

2)借助关联词组合

A.他既勇敢,又机智。 B.风又急,雨又大。

2、连贯复句

(1)概念:几个分句按顺序说出连续的动作或相关的情况。

(2)关联词:

单独的:就、便、才、于是、然后、后来、接着、跟着

搭配用的:首先……然后 起先……后来

(3)例句:

例句:

过了那树林,船便弯进了叉港,于是赵庄便真在眼前了。

3、解说复句

(1)概念:后一分句对前一分句进行解释、说明或总说,解说关系一般依靠分句的次序和意义来体现,不用关联词。

(2)例句:

地球围着太阳转,这是小学生都知道的常识。

一种是教条主义,一种是经验主义,两种都是主观主义。

4、选择复句

(1)概念:几个分句分别说出几种情况,这几种情况不能同时并存,要求从中选择一种。

(2)关联词:

单用的:或、或者、还是、宁可、倒不如、宁肯、还不如

搭配用的;是……还是 要么……要么 不是……就是 也许……也许 与其……不如 与其……宁可 宁愿……也不 宁可……也

(3)例句

例句:

宁可站着死,决不跪着生!

四、复句的类型(二):偏正关系的复句

1、转折关系

(1)概念:转折复句由两个有转折关系的分句组成,后一个分句不是顺着前一个分句的意思说下去,而是转到相反或相对的意思上去。

(2)关联词

轻转句单用的:不过、只是、但是、可是、却、然而

重转句搭配用的:尽管……但是 虽然……但是 虽然……可是 尽管…然而 虽然……却

(3)例句 工作虽然很紧张,但是心情是很愉快的。 他长得结结实实,只是比原来瘦多了。 夜已经很深了,可是他还在不停地工作着。

2、条件复句

(1)概念:前后分句间有条件和结果关系的复句。

(2)关联词:

单用的:只有、只要、除非、才、不管、无论、任凭

搭配用的:

只有…….才 只要……就 一旦…….便

除非……不 除非……否则 不管……都

不管……总 无论……也 任凭……也

(3)例句:

除非是到了春天,你才能看到这遍山的杜鹃花。

3、假 设 复 句

(1)概念:前一分句提出一种假设,后一分句说明这种假设的结果。

(2)关联词:

单用的:只有、只要、除非、才、不管、无论、任凭

搭配用的:只有…….才 只要……就 一旦…….便 除非……不 除非……否则 不管……都 不管……总 无论……也 任凭……也

(3)例句:

“只你唯一”相近的句子篇四
《信息检索中的句子相似度计算》

计 算 机 工 程 第 37 卷 第12期

ol.37 No.12 V Computer Engineering 文章编号:文章编号:1000—3428(2011)12—0038—03 ·软件技术与数据库·软件技术与数据库· 2011年6月 June 2011 文献标识码:文献标识码:A 中图分类号:中图分类号:TP391.1

信息检索中的句子相似度信息检索中的句子相似度计算

王 品,黄广君

(河南科技大学电子信息工程学院,河南 洛阳 471003)

摘 要:为同时提高信息检索的查全率和查准率,提出一种基于语义依存度的句子相似度改进算法。在计算关键词相似度的基础上,研究基于语义依存相似度算法,在判定句子有效搭配对权重时加入语义角色标注信息,对算法进行加权,并用实例证明其可行性。在提高系统查全率的基础上,用改进算法对查询结果进行重排序,从而提高前K个返回结果的查准率。实验数据显示,重排序后的前20篇返回文档的查准率比系统排序前提高了3.6%。结果表明,该算法能有效提高系统查准率。

关键词关键词:信息查询;相似度;关键词;语义依存;依存树;重排序

Sentence Similarity Computation in Information Retrieval

WANG Pin, HUANG Guang-jun

(Electronic Information Engineering College, Henan University of Science and Technology, Luoyang 471003, China)

【Abstract】It is a difficulty problem that how to improve the recall and the accuracy ratio simultaneously on information searching. In view of this question, this paper proposes one kind of improved sentence similarity algorithm which based on the semantic interdependence degree. IT analyses the characteristics of algorithm based on semantic interdependence similarity, adds the semantic role labeling information through determining weights of the sentences effective collocation, and then weights the algorithm of keyword similarity calculation, then proves this algorithm feasibility with the example, makes re-sorting with the improved algorithm for inquiry results, which founded on enhancing the inquiry system recall. Thus enhance the accuracy ratio of the first K returns results. Experiment proves that this algorithm improves accuracy ratio of system, the first 20 of re-sorting compared with the before of system sorting, to enhance 3.6%.

【Key words】information inquiry; similarity; key words; semantic interdependence; interdependence tree; re-sorting

DOI: 10.3969/j.issn.1000-3428.2011.12.013

1 概述

信息检索是指从大量文档资源集合中自动地找到与用户

查询请求相关的各种信息[1],即使用户的查询句子或词语与

文档集信息匹配的一个过程,其实质就是对自然语言进行相

关的处理,从而使匹配的效果达到令人相对满意的程度。在

机器翻译、信息检索、自动问答等方面,句子相似度的计算

都是其中的关键技术[2]。文献[3]通过最大边缘相关方法进行

相似度计算;文献[4]则采用隐含语义索引方法。国内学者从

不同方面(如向量空间模型、语义距离、语义依存、关键词语

义、概念图等)来计算句子的相似度[5-8]。依据对语句的分析

层次,相似度计算主要有以下2种方法:(1)基于向量空间模

型的方法。该方法只是把句子看成词的线性序列,不对语句

进行相应的语法结构分析,而对语句相似度的衡量只利用句

子的表层信息,即组成句子的词的词频、词性等信息。由于

不加任何结构分析,该方法在计算语句之间的相似度时不能

考虑到句子整体结构的相似性。(2)对句子进行完全的句法与

语义分析。通过对被比较的两句进行词性标注、语义排歧、

句法分析语义分析等深层次的分析,找出句子的依存关系,

并在依存分析结果的基础上进行相似度计算。

文献[6]通过比较两句相同词的个数及其位置关系,得到

两句的词形相似度和词序相似度,再通过词形相似度和词序

相似度计算句子的相似度。但该方法未考虑任何句法结构信

息,对句子的整体语义分析不够;文献[7]对语句进行语义分

析,通过构建语义依存树树,比较有效搭配对来实现相似度

计算。但该方法未考虑不直接依存于全句核心词的有效词的相似度。本文融合上述2种方法的优点对相似度算法进行改进,用语义依存树的相似度来改进句子语序相似度,使其更能体现句子的语义信息,融合词形相似度的计算方法,从而弥补文献[7]中关键词在句子中有效但没有直接依存核心词的缺点。在基于统计方法的查询模型的基础上,将改进算法用于对查询结果的二次排序,在确保查询模型的查全率的基础上用二次排序提高查准率。 2 句子相似度计算 2.1 计算句子相似度的准备工作 在计算句子之间的语义相似度时,首先要确定句子中的词在这个句子中所表达的语义。如“这个菜很吃油”中的“吃”是“吸收”的意思,而“吃透思想”中的“吃”是“领会”的意思。然后利用依存结构计算句子间的相似度。本文采用哈尔滨工业大学信息检索研究中心开发的在线语言技术平台(Language Technology Platform, LTP)获得句子各成分间的依存关系信息。该平台用于对汉语进行句法分析,将句子由一个线性序列转化为一棵结构化的依存分析树,通过依存弧反映句子中词汇之间的依存关系,它可以同时对一个句子做词性标注、词义消歧、命名实体、句法分析和语义分析,通过该平台的分析,句子各成分之间的依存关系如图1所示。 基金项目:基金项目:河南省科技攻关计划基金资助项目(102102210159) 作者简介:王 品(1982-),女,硕士研究生,主研方向:语义Web;作者简介:黄广君,副教授、博士 收稿日期:收稿日期:2010-11-20 E-mail:yougushui2002@163.com

第37卷 第12期 王 品,黄广君:信息检索中的句子相似度计算 39

本文将该结果以依存树结构表示。例如:“今年他的毕业

论文被河南科技大学学报刊登。”可表示成树状结构,如图2

所示。

40 计 算 机 工 程 2011年6月20日 结果的前K个标题句进行句子相似度计算,并按相似度的大

小进行二次排序,从而提高前K个返回结果的查准率。现以

查询语句I以及查询结果的第M个标题为例,具体方法如下:

(1)对I句和M句分别用LTP系统进行句子分析。

(2)首先分别对I句和M句进行关键词抽取。若假设S为

一个句子;w为S中系统分析切词后的任意词;S′为S中关

键词序列。如果w为名词、代词、动词或形容词,则抽取w

输入S′中;然后利用式(1)对分析过的I和M句计算相似度。

(3)按上文方法对I和M句构建语义树,以语法树的树根

为中心,如果其叶子节点是动词、名词、形容词,则为有效

搭配对,作为有效结果输出,然后利用式(2)对分析结果进行

相似度计算。

(4)利用式(3)计算I句和M句的句子相似度。

4 实验及结果分析

对于句子相似度算法的实验,本文采用了50对句子作为

测试集,这些句子根据他们所表达的内在意义大致可以分为

4种类型:(1)A类句子表达的语义完全相同,只是表达方式

不同,其中主要的关键词是相同词或同义词;(2) B类句子的

大部分关键词是相同词或同义词,但是句子所表达的语义不

完全相同,有一定差距;(3)C类句子所表达的语义不同,只

是在句中出现了相同的关键字;(4)D类句子的关键词没有相

同词或同义词,但从语义上来看,两者还是表达了同一种事

物或事件。

通过实验得本算法中λ1=λ2=0.5。由式(3)中的条件0<

λ1≤λ2<1、λ1+λ2=1可得,λ2=1-λ1,0<λ1<0.5,然后联合通过

式(1)和式(2)得出的实验结果分别代入式(3)中就得到一组关

于λ1的形如Y=AX+B的直线集,在这里λ1代表的是词形在

句子相似度中的权重。由于一方面这些直线是离散的,不利

于求得λ1值,另一方面训练集的设计是有针对性的,所以利

用各类结果的平均值求解λ1的值。实验结果如图3所示。

图3 λ1取值对句子相似度的影响情况

设C类和D类直线的交点为O,O点所对应的λ1的值为

a。根据训练集的设计,C类句子的相似度应大于D类句子

的相似度,那么由图3可以看出,λ1>a。联合已知条件可以

得到,a<λ1≤0.5。当a<λ1≤0.5时,对于A类和D类这2类

句子来说,λ1的取值情况对整个相似度的影响波动很小,所

以,可以将图3中的这2条线忽略。从设计训练集的相似度

考虑一方面B类得相似度一定要大于C类,另一方面要让B

类和C类的句子相似度达到最大值,所以满足以上条件要求

的λ1取0.5。

确定λ1和λ2的值后4类句子的相似度结果见表1,可以

看出,改进算法的实验结果明显高于原方法。C类中改进算

法相似度不如文献[6]的高,原因是因为文献[6]的方法只注重关键字相似或相同,而没有注重句子的语义,而这些用来做实验句子只是关键词相似而表达的语义不同,所以改进后的方法比它的相似度稍低,但是为了提高查询结果的查准率,本文更加注重句子的语义,所以这样符合本文要计算相似度的宗旨,即在进行二次排序时愿意采用改进后的相似度来达到二次排序的目的。在A类句子中,文献[7]的语义优势表现明显,但是它对其他类型的句子相似度计算效果没有改进算法的效果好。 表1 相似度对比相似度对比 算法 相似度 A类 B类 C类 D类 文献[6]算法 0.874 0.575 0.550 0.275 文献[7]算法 1.000 0.500 0.125 0.333 改进算法 0.929 0.595 0.333 0.487 用改进的相似度算法通过查询模型对查询结果进行二次排序后,在确保查全率的基础上,查准率比排序前有所提高。具体情况见表2。 表2 评测指标对比评测指标对比 查询扩展算法 MAP prec@20 未扩展(初始检索性能) 0.191 2 0.452 经典算法(LCA) 0.267 3 0.551 本查询模型的扩展方法 0.289 1 0.720 重排序后 0.289 1 0.746 5 结束语 本文提出一种汉语句子相似度计算的改进算法,并对查询结果进行二次排序,在确保查全率的基础上提高查准率。该算法在计算关键词相似度的基础上,引入依存度来分析语句的内部环境,表达句子的深层次意义,从而更加贴切的理解用户的查询意图。实验证明查询结果的查准率有所提高。但由于本文算法很大程度上受依存分析的影响。此外,在二次排序时只比较了原查询语句与第一次查询结果标题的句子相似度,而没有考虑摘要与原查询语句的句子相似度。因此,下一步研究方向是进一步提高依存分析的准确率,并考虑摘要信息。 参考文献 [1] 李 立. 中文信息检索系统研究[D]. 武汉: 华中师范大学, 2008. [2] 金春霞. 多层次结构句子相似计算的应用研究[J]. 计算机应用与软件, 2009, 26(10): 180-202. [3] Carbonell J G., Goldstein J. The Use of MMR, Dirversity-based Reranking for Recording Documents and Producing Summaries[C]// Proc. of ACM SIGIR’98. Melbourne, Australia: ACM Press, 1998. [4] Ding C H Q. A Similarity-based Probability Model for Latent Semantic Indexing[C]//Proc. of ACM SIGIR’99. Berkeley, California, USA: ACM Press, 1999. [5] 赵巾帼, 徐德志, 罗庆云. 汉语句子相似度计算方法比对之研究[J]. 福建电脑, 2007, (10): 51-68. [6] 吕学强, 任飞亮, 黄志丹, 等. 句子相似模型和最相似句子查找算法[J]. 东北大学学报: 自然科学版, 2003, 24(6): 531-534. [7] 丁 豪, 杨国纬. 基于自然语言处理的文本自动校对系统[D].成都: 电子科技大学, 2006. [8] 卜文娟, 张 蕾. 基于概念图的中文FAQ问答系统[J]. 计算机工程, 2010, 36(14): 29-31. 编辑 金胡考

“只你唯一”相近的句子篇五
《排比句是把三个或以上意义相关或相近》

排比句是把三个或以上意义相关或相近、结构相同或相似、语气相同的词组或句子并排在一起组成的句子。有时候两个句子或以上的并列句子也可以称为排比句。用排比来说理,可收到条理分明的效果;用排比来抒情,节奏和谐,显得感情洋溢;用排比来叙事写景,能使层次清楚、描写细腻、形象生动之效。 例如:1心灵是一方广袤的天空,它包容着世间的一切;2心灵是一片宁静的湖水,偶尔也会泛起阵阵涟漪;3心灵是一块皑皑的雪原,它辉映出一个缤纷的世界。 痛苦是黑暗中的摸索,前进的路途中满是坎坷;痛苦是无人理解的悲哀,无助的面对一切挫折;痛苦是心灵最深的折磨,无泪且无法直言;痛苦是天生没有的表情,是烦恼中的恶魔。

排比,就是把三个或者三个以上结构相似,意义相关,语气一致的词组或者句子排列在一起。因此,排比一定是三个或者三个以上的词组和句子,而且一定有一部分字词相同。比如“人教版第七册语文书《桂林山水》,有一组句子:“漓江的水真静啊,静的感觉不到它在流动;漓江的水真清啊,清的可以看见江底的沙石;漓江的水真绿啊,绿的仿佛那是一块无暇的翡翠。”意思相连,都是描写桂林的水的特点;句式相似,用了三个“漓江的水真„„啊”。

再比如:“雨,像牛毛,像花针,像细丝,密密地斜织着,人家屋顶上全笼着一层薄雾。”

“桃树、杏树、梨树,你不让我,我不让你,都开满了花赶趟儿,红的像火,粉的像霞,白的像雪。”

以上两个句子描写相关的事物,前者描写春雨,后者描写花各种色彩,并且用上了三个相同的句式“„„像„„”,符合排比的条件。

如果是三个相关并列词语,而不是词组或者句子组成的句子,不是排比句。如:“动物园里有大象、河马、猴子„„大约有上百种。”“大象、河马、猴子”只是词语,不是词组,所以这句话不符合排比的条件,不是排比句。

同时,有的时候,排比句的字树可以相等,也可以不相等。比如:“黄继光感到指导员在望着他,战友们在望着他,祖国人们在望着他,朝鲜人民在望着他。”

如果只有两个词组或句子排列的句子,即使结构相同,语气相关,也不是排比句。比如:“白天,他攀山越岭,勘测路线;晚上,他就在油灯下绘图,计算。”只有两个“他”怎样,所以不是排比句。

“只你唯一”相近的句子篇六
《一种基于知网的句子相似度计算方法》

CN43—1258/TPISSN1007—130X

计算机工程与科学

COMPUTERENGINEERING&SCIENCE

2012年第34卷第2期

V01.34,No.2,2012

文章编号:1007—130x(2012)02—0172一04

一种基于知网的句子相似度计算方法+

MethodofSentenceSimilarity

ComputingBased

程传鹏。吴志刚

CHENG

on

Hownet

Chuan-peng,WU

Zhi—gang

(中原工学院计算机学院,河南郑州450007)

(School

ofComputerScience,zhongyuanInstituteofTechnology,zhengzhou

450007,China)

摘要:句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对“实体概念”的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。

Abstract:Sentencesimilarityisthebasisofdocumentsimilarity,andplays

an

sentence

similaritycomputing

sentence

importantroleinthefieldofnaturallanguageprocessing.

sentence

structure.

The

current

methodsofsim—

ilaritycomputingne91ecttheinfluenceofthispaperproposesstructedaccording

an

onthebasisoftheinterrelatedresearch,

Thesemantic

tree

improvedmethodofsimilaritycomparison.

ofsememeis

con—

to

thedescriptionofentityconceptionintheHownet,thesemanticsimilarityofsem—

on

emeiscomputedbasedbased

on

therelativepositionsinthesememe

tree.

Calculatingof

test

sentence

similarityis

surfacesimilarityandsemanticsimilarity.

to

Underthesameconditions,

to

theexperiments

sen—

showthattheproposedmethodismuchcloser

tenCeS.

thepeople’scomprehensionthemeaningsofthe

关键词:句子相似度;知网;表层相似度;语义偏移量

Keywords:sentencesimilarity;hownet;surfacesimilarity;semanticoffsetsimilarity

doi:10.3969/j.issn.1007—130X.2012.02.031

中图分类号:TP391.1文献标识码:A

于词语共现的统计方法,例如,北大计算语言所提

引言

句子相似度的比较作为中文信息处理研究领域中一个关键的问题,一直以来都是人们研究的热点和难点。句子相似度计算在自动问答、双语例句检索、文档文摘等领域都有很重要的应用价值。目前,句子相似度计算的方法主要有两种:一种是基

收稿日期:2011—07—23;修订日期:2011—10—08

基金项目:河南省教育厅自然科学资助项目(200885z0046)

出的一种句子相似度计算公式:2c/(m+竹)(其中m、咒分别表示两个句子的词数,c是两个句子中相同词的数目[1]。);另外一种是基于词汇的词法和语义信息的分析[2’3]。第一种方法简单、高效,但忽视了词汇的词法和语义信息,因此在计算句子整体相似度上不够准确;第二种方法虽然考虑到了词语的语义信息,但忽略了词语之间的相对位置信息。

÷

通讯地址:450007河南省郑州市中原工学院计算机学院

AddI℃ss:SchoolofComputerScience,ZhongyuanInstituteofTechnology,Zhengzhou,Henan450007,P.R.China

程传鹏等:一种基于知网的句子相似度计算方法

173

本文在已有研究工作的基础上,综合考虑了两种方法的优缺点,提出了一种新的句子相似度计算的方法。文章首先介绍了基于《知网》的词语相似度计算方法;接着介绍了句子相似度的计算方法;最后对该方法进行了实验和评价。

k扎g砘(Pi,Pi)表示。

例如,k,zg琥(“走兽”,“水果”)一3。从图1的语义树形图中,可以得出如下结论:对于重合度相同的节点对,处于语义树较高层的,其语义距离较大。例如,“动物”和“植物”,“走兽”和“鸟”,这两对词语问的重合长度都是1,但前一对词(“动物”和“植物”)绝对高度为3,后一对词(“走兽”和“鸟”)绝对高度为6。

Dekang认为任何两个事物的相似度取决

2基于《知网》的词语相似度计算

句子的相似度主要取决于句中词语的相似度。本文采用了《知网》来计算词语的相似度。《知网》[41是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库口]。在《知网》中,所有的词语通过“概念”来描述,每一个词可以表达为几个概念,每一个“概念”由“义原”来描述,具体定义如表1所示。

《知网》中义原之间有8种关系,分别是“上下位”关系、“同义”关系、“反义”关系、“对义”关系、“属性一宿主”关系、“部件一整体”关系、“材料一成品”关系、“事件一角色”关系。所有的义原之间组成了一个复杂的网状结构。在这8种义原关系中,最重要的“上下位”关系,该关系可以用如图1所示的树状层次结构来表示。

Lin

于它们的共性(Commonality)和个性(Difference),并从信息理论的角度给出任意两个事物相似度的通用公式[7]:

鼢Q,y卜苁罴甏笼‰㈩

其中,∞mmo咒(z,y)描述了z、y共性所需要的信息量大小;如sc以户£io咒(z,y)描述了z、y所需的信息量大小。

在义原“上下位”树形图中,节点共性主要体现在两个节点的父节点,个性主要体现在节点之间重合度上,综合考虑节点的共性信息和个性信息,本文中给出如下的义原语义相似度计算公式:

&m(如"一面孤篇搿系鬻丽丽

(2)

其中,胁i的£(却。如)表示义原户i、A共同父节点

的绝对高度。

有了义原相似度计算公式后,两个词语W,和W。的相似度为各个概念的相似度之最大值,计算方法参照文献[5],公式如下:

&m(W1,W2)一

max

Sim(S1f,S2;)(3)

其中,S11’S。。,…,S。。为W,的咒个概念;S”S22,

…,S。。为w。的m个概念。

两个概念语义表达式的整体相似度记为:

图1义原“上F位”关系树状图

&m(s1,s2)一>:屈sim。(s1,s2)

(4)

为了便于后文的讨论,依据义原“上下位”关系树状图给出如下两个定义:

定义1绝对高度(HPig^f(P:))指的是节点到根节点的路径长度。

例如,H西g^£(“动物”)一4。

定义2重合度指的是两个节点第一次到达同一个父节点所经过的最长路径长度,文中用

符号符号含义举例

NO

其中,Si优。(S,,S。)为“上下位”义原关系相似度;

Si弛(S。,S2)为“符号”义原相似度;Sim。(S。,S。)

为其他独立义原相似度。

3句子相似度计算

传统的方法只是简单地运用词语共现的方法

表1概念描述表

CG—CE—CWEG—EE—EDEF

概念编号

017146

词语

洗衣

词性

例子对应的英文单词

washclothe8

英文词性

英文例子概念定义{washl洗涤:patient

一{clothingl衣物)}

174

来计算相似度,在计算句子相似度的时候并没有考虑句子中词语的语义距离。本文利用《知网》来计算词语之间的语义距离,有关计算如下。3.1表层相似度计算

表层相似度指的是两个句子形态上的相似程度,以两个句子中所含相同词或同义词的个数来衡量。设P,、P。为两个句子,则P。、P。的词形相似度为:

溉c%蚴一笔搭等豢等㈣

其中,n表示集合的交运算;r运算符表示求集合中的元素个数;丌(S。)n丌(S。)表示的是两个句子中所含有相同词或者同义词的集合;k咒(Si)表示句子的长度,即句子中含有的词语个数。表层相似度表明,两个句子中所含的相同词或者同义词越多,则表层相似度越大。

通过对大量语料句子的观察,我们发现句子中的名词和动词更能够体现句子的中心思想,需要对这类词赋以较大的权重,因此对公式(5)进行修正为:

&m。(P1,P2)一

2*(A1n(丌(P1)n丌(P2))+A2n(丌(P1)n丌(P2)))

匕咒(Pi)+砌(只)

(6)

其中,n(丌(P。)n丌(P。))指的是句子中所含有相同或者相近的名词、动词个数;n(7r(P。)n丌(P:))指的是含有其它词的个数;A,、A。为常数,且A1+A2—1,A1>A2>O。3.2语义偏移量相似度计算

语义偏移量相似度综合考虑了旬中词语的语义相似性,以及词语在句子中的相对位置,它反映两个句子中的词语在语义以及位置关系上的相似程度。设P。、P。为两个句子,则两个句子的语义词序相似度计算公式如下:

&m女(P1,Pz)一

∑∑矗m(wi,w,)×(1一I加s(wi)一印s(V■)I)

跆咒(P1)×如竹(P2)

(7)

其中,挖、m分别为两个句子中词语的数量;

矗仇(w。,肌)为两个词语的相似度;加s(wi)为词

语wt在句子中的相对位置,加s(wi)一南。

3.3句子相似度的计算

根据以上分析,句子相似度取决于表层相似度

计算机工程与科学2012,34(2)

和语义词序相似度,综合考虑二者对句子相似度的影响,本文给出如下句子相似度计算公式:

&m(P1,P2)一口1×&m,(P1,P2)+

口2×&m^(P1,P2)

(8)

其中,&m,(P,,P。)为P。、P:的表层相似度;&m。(P。,P。)为语义偏移量相似度;口。、a。为常数,且满足a。+口:一1。句子相似度反映了两个句子之间的相似程度,取值在。和1之间。如果两个句子完全没有任何关系,则相似度计算结果为o;如果两个句子完全一样,则相似度为1。

句子相似度的具体计算步骤如下:

(1)对句子P。、P。进行分词,并去掉无意义的停止词。

(2)依照同义词词典查找两个句子中同义词,计算两个句子中同义词和相同词的个数。

(3)按照公式(6)计算两个句子的表层相似度。(4)依据公式(3)获得两个句中词语的语义相似度后,按照公式(7)计算句子的语义偏移量相似度。

(5)综合句子的表层相似度和语义偏移量相似度,按照公式(8)计算两个句子的相似度。

本文中所提到的方法,克服了传统基于词语共现方法的不足,能够从语义方面更深层次地挖掘两个句子的相似度。

本文的测试语料选择的是文献[1]中所提到的句子库,该语料是由清华大学周强博士提供的,语30

[zj—XX[dj—ZW梦雅/nP[vp—AD呆/v

了/u

]]。/。]

3l

[zj—XX[fj—LG[vp—ZZ从此/d[vp—ZZ不[vp—ZZ再/d

[vp—PO有/v/n]]]],/,

[vp—ZZ老/d失眠/v]]。/。]

32

[zj—XX[dj_ZZ后来/t

,/,[dj—ZW他们

[vp—AD离婚/v了/u]]]。/。]

在原有语料的基础上,人工添加3个句子,分

的是文章前言中所提到的词语共现的方法,具体公在上述理论研究的基础上,采用VB.net开发

4实验及评价

料中所有的句子都已经经过切分和词性的标注口],格式如下:

/dN

/rN

别是句子2、句子3、句子4,并且认为这3个句子与句子1的相似度相近。表2中的第一种方法指式是北大计算语言所提出的公式;第二种方法是采用文献[1]中所提到的方法。

程传鹏等;一种基于知同的句子相似度计算方法

175

了一个句子相似度计算系统,程序运行界面如图2所示。

种方法测试的值。可以看出,本文中所提出的相似度计算方法更符合实际情况。因此,本文所提出的句子相似度计算方法具备一定的实用性。

5结束语

句子相似度的计算在自然语言处理领域中有着非常重要的意义。在分析已有算法的优点和缺点的基础上,本文提出了一种改进的句子相似度计算方法。首先依据《知网》来计算词语之间的语义相似度,然后从表层相似度和语义词序相似度来计算句子的相似度。实验结果表明,在同等的测试条

图2句子相似厦计算图

件下,本文所提出的句子相似度计算方法测试结果更符合实际情况,因此本文中所提到的句子相似度计算方法有一定的应用价值。此外.本文在计算词义相似度时,并没有考虑到《知网》中未收录的词,这将在一定程度上影响词语相似度计算的准确性,在下一步的工作中,将对未登录词的语义相似性做进一步的研究。

参考文献:

[1]王荣渡-池哲儒,常宝宝.等基于词串粒度及权值的汉语句

子相似度衡量[J].计算机工程.2005.3l(13):142—144.[2]

吕学强,任飞亮.黄志丹.等.句子相似模型和最相似句子查拽算法口].东北大学学报(自然科学版).2003.24(6):

相似度值

531534

实验中,∑犀sim,(s。,sz)中届一o.6,屉=

l-I

O.2,儡一O.2。&m,(PI,P2)中的A,、扎取了3组值:(1)^l=o.6,^2=O.4;(2)^l—o.5。^2一O.5;(3)A-一O.4,^2一O.6。聂m。(P.,P。)公式中的口l、口2也分别取了三组值:(1)口l—O.6,口2—0.4;(2)m=O.7,口2=O.3;(3)口l一0.5,口2—0.5。对9组参数取值所得到的结果取其平均值。按照方法一、方法二以及本文的方法,将10个句子分别与第一个句子进行相似度计算,计算结果如表2所示。

寰2实验结果

嘉善

句子实倒

第一种第二种方法方法

本文

[3]张民t李生。赵铁军.等.一种汉语句子问相似度的度量算

法及其实现[c]∥计算语言学进展与应用.1995.[4]

董振东.董强.知网[DB/oL].[201l—06—23].hnp://

wunv.keenage.com.

方法

[5]刘群。李素建.基于‘知网'的词汇语义相似度的计算[c]∥第

三届汉语词汇语义学研讨会.2002.

[6]梅家驹.竺一鸣,高蕴琦.等.同义词词林[M]上海:上海

辞书出版社.1993.[7]

Lin1y

Se啪tic

Dekan昏AnInformatlon—Theoretlc

dlstancein

De“nitl…f

ofthe

sImiIari一

worldNet[c]∥Proc

Hfteenth

InternationalConferenceon

MachineLearnlng.1998.

程传一(1977一),男,河南信阳人,硕

士,讲师,研究方向为自然语言处理。E.

第一种方法测试的结果中,句子2、句子3、句子4与句子1的相似度值都要小于o.2,明显与实际情况不符。按照本文的方法测试,句子2、句子3、句子4与句子1的相似度值都要大于其它两

二一

眦il:chen98444@sina.com

cHENGch岫矿雕ng“orn

in1977,

_一一J■Ms,lecturer,his

naturallanguageprocessing.

researchinterestincludes

“只你唯一”相近的句子篇七
《选出与所给句子画线部分意义相同或相近》

一、选出与所给句子画线部分意义相同或相近,并能代替的那一项 1. There was plenty of rain here last year. A . many B. a large number of

C. much D. quite a few 2. The plane has set off .

A. start out B. took off

C. start off D. taken off 3. It's cheaper to travel by public transport . A. traffic B. transportation C. transported D. transporter 4. He will fly to New York next week. A. by air B. by plane C. take plane to D. go to … by plane

5. Don't talk about anything else. Let's get back to the problem that we want to work out.

A. get up to B. return to C. give back to

二、单项选择 D. get away from

1. Can you give me some paper ______ ?

A. writing B. to write C. to write with D. to write on 2. ______a book under his arm, the teacher came in.

A. With

B. Under

C. In D. Has 3. ______people become volunteers for the 2008 Olympic Games. A. A plenty of B. The number of C. More or less D. More and more 4. She walked______ the shop and got______ a bus. A. out of, on

B. out of, off C. into, on D. out from, off 5. You ______borrow two books at a time. A. is able to B. was able to C. can D. could do

三、根据所给中文完成句子

1. 如果你想坐在窗户边,你最好早点到达候机厅。

you'd better arrive earlier.

2. 他们会采取什么形式的交通方式呢?

3. 我们乘观光车去了颐和园旅游。

4. 这学期他们将有很多趣事。

5. 她点了点头,说不出话来。

四、情景对话

A: Hi, Zhou Wei. Where are you going to spend your summer

holiday?

B: ___1_____

A: How are you going to get there?

B: We're going to get there by plane.

A: ___2_____

B: The next Monday.

A: ___3_____

B: Thanks. What about you?

A: ____4____ I'd like to go back to see all the villagers.

I miss them very much.

B: ____5____ I think you must have a good time in your home town.

五、书面表达 假设你是李雷,现在你给你的英国朋友 Jim 写一封信,告诉他你和同学们上周 日去香山公园郊游的活动和感受。信的开头和结尾已给出。

你们早上 7 点钟在学校门口集合,大约 8 点钟到达香山公园……

(词数: 60-80)

meet, arrive, at the foot of the hill, have a party, play games, climb, on the top of, see, how, beautiful, feel proud (自豪的)

,live, Beijing, the 2008 Olympic Games, hold

“只你唯一”相近的句子篇八
《句子相似度计算新方法及在问答系统中的应用》

ComputerEngineeringandApplications计算机工程与应用2008,44(1)165

句子相似度计算新方法及在问答系统中的应用

周法国,杨炳儒

ZHOUFa-guo,YANGBing-ru

北京科技大学信息工程学院,北京100083

SchoolofInformationEngineering,UniversityofScienceandTechnologyBeijing,Beijing100083,China

ZHOUFa-guo,YANGBing-ru.Newmethodforsentencesimilaritycomputinganditsapplicationinquestionanswering

(1):165-167.system.ComputerEngineeringandApplications,2008,44

Abstract:Sentencesimilaritycomputingplaysanimportantroleinmachinequestion-answeringsystems,machine-translationsys-tems,textcategorizationsystems,etc.Aimingatasentencesimilaritymodelbasedonkeywords,animprovedmethodisputfor-

ward,includingtheextractionofkeywords,andtheinductionofsynonymsinsentencesimilaritydefinition.Andonthisbasis,a

(FrequentlyAskedQuestion)isimplemented.ThissysteminvolvesautomaticallysearchingquestionanswersystembasedonFAQ

forcandidatequestionset,computingsentencesimilarityandreturningtheanswertotheuser.ThissystemcanalsoautomaticallyupdateandmaintainFAQ.Experiments’resultshowsthatthenewmethodhasmoreaccuracythantheothersinmatchingques-tionsofquestionansweringsystem.

Keywords:naturallanguageprocessing;sentencesimilarity;FrequentlyAskedQuestion;questionanswer

要:计算句子的相似度在机器问答、机器翻译、文本分类等系统中有着非常重要的作用。该文对基于相同关键词的句子相似模

并以此为基础,实现了一个基型作了进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词以及近义词的情形。

于常问问题集的中文自动问答系统,对用户以自然语言输入的问题,该系统能够自动地在FAQ(Frequently-AskedQuestion)库中该系统还能够自动地更新和维护FAQ库。实验结果表明,这种寻找候选问题集,通过计算句子相似度,将匹配的答案返回给用户。新方法在问答系统中匹配问句时比其他方法具有较高的准确率。关键词:自然语言处理;句子相似度;常问问题集;问答系统文章编号:1002-8331(2008)01-0165-03

文献标识码:A

中图分类号:TP391

相应的语句相似度衡量机制只能利用句子的表层信息,即组成句子的词的词频、词性等信息[4]。由于不加任何结构分析,该方法在计算语句之间的相似度时不能考虑句子整体结构的相似性。(2)基于语义的方法,对语句进行完全的句法与语义分析,这是一种深层结构分析法,对被比较的两个句子进行深层的句法分析,找出语义依存关系,并在依存分析结果的基础上进行相似度计算[5]。本文是在基于词的方法的基础上充分考虑了同义词与近义词。

1引言

在自然语言处理领域,尤其是在中文信息处理中,句子相

似度计算是一项基础而核心的研究课题,长期以来一直是人们研究的一个热点和难点。句子相似度计算在现实中有着广泛的应用,它的研究状况直接决定着其他一些相关领域的研究进展,句子相似度的计算在自然语言处理的各个领域都有着非常重要的作用,如在基于实例的机器翻译系统[1]中、在文档自动文在基于常见问题集摘系统[2]中、(FAQ)的机器问答系统[3]中以及信息检索、信息过滤等方面,句子相似度的计算都是其中关键的技术之一。本文给出了一种计算句子相似度的新方法,并给出了该方法在问答系统中的应用,设计并实现了一种简单的基于常问问题集的中文问答系统。

2.2关键词抽取

由语言学知识可知,任何句子都是由关键成分谓、宾(主、

等)和修饰成分状、补等)构成的。关键成分对句子起主要(定、作用,修饰成分对句子起次要作用。进行句子相似度计算时,只要考虑句中的关键成分。基于词的方法不考虑句法结构分析,因此,不能确定句子的内部成分,包括关键成分和修饰成分。在通常情况下,一个句子中作主语和宾语的多为名词或代词,作谓语的多为动词或形容词。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词,并在计算句子相似度时只考虑这些关键词。例如,句子“我当然愿意了解她们的

2句子相似度计算的新方法2.1常见句子相似度计算方法

在相似度计算中,按照对语句的分析深度来看,主要存在两种方法:(1)基于向量空间模型的方法,即基于词的方法。该方法把句子看成词的线性序列,不对语句进行语法结构分析,

基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.60675030)。

作者简介:周法国(1976-),男,博士研究生,主要研究方向为自然语言处理,知识发现与智能系统;杨炳儒(1943-),男,教授,博士生导师,主要研

究方向为知识发现与智能系统,柔性建模与集成技术。

1662008,44(1)ComputerEngineeringandApplications计算机工程与应用

作用,并且名词比动词承载着更多的信息量。一个句子的中心信息基本上都是围绕着动词和名词来展开的,所以在进行计算的时候也特意加大了名词和动词的重要程度,将句子的重心落在名词和动词上面。这样,在此处计算相同关键词的个数时,若两个词相同并且都是名词,相同个数以5计,若两个词相同并且都是动词,相同个数以3计,在计算Si中的关键词个数时,名词的个数也按5计,动词个数以3计,即一个名词实际出现编程时,一次计算为5次,一个动词实际出现一次计算为3次。对每个句子分词后,然后要进行词性标记从而区分是否为名词和动词。同时为了更进准确的计算句子的相似度,我们引入了和句子同义词词典。如:句子“怎么杀计算机病毒?”“怎么杀电脑病毒?”是基本一样的。其中和是同义词。“计算机”“电脑”

定义2句长相似度LenSim(S1,S2)

从句子长度上来标注句子的相似性,在一定程度上也反映句子形态上的相似性。其计算方法如下:

(S1,S2)=1-绝对值LenSim

要求。”的关键词序列为“我愿意了解她们要求。”。对于特定句中的某个名词、代词、动词或形容词,不一定就是该句中的主语、宾语或谓语成分,但相对于句中所有的词构成的词序列而言,关键词序列却具有一定的句法结构信息表达能力,至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算,比一般基于词的方法更准确一些。

2.3有关定义和计算

汉语句子就是一个字符串,是由一组不同含义的单词组

成,它不同于数值型变量,可以用一个特定的数值来确定它的大小或位置,所以用何种方式来描述两个字符串之间的距离,成为了一个值得探讨的问题。

通常情况下,用于分析的数据类型有如下几种:区间标度遍历、二元变量、标称型变量、序数型变量、比例标度型变量、混合类型变量等。

综合这些变量类型,本文认为字符串变量更适合于归类于二元变量,我们可以利用分词技术将字符串分成若干个单词,每个独立的单词作为二元变量的一个属性。把所有单词设定为一个二元变量属性集合R,字符串1和字符串2的单词包含于这个集合R。设q是字符串1和字符串2中都存在的单词的总数,s是字符串1中存在,字符串2中不存在的单词总数,r是字符串2中存在,字符串1中不存在的单词总数,t是字符串1和字符串2中都不存在的单词总数。称q,r,s,t为字符串比较中的4个状态分量。如图1所示。

LenS-LenS

"LenS+LenS

())1

))2

其中Len(Si)表示Si中(关键)词的个数,i=1,2。

定义3词序相似性OrdSim(S1,S2)

从关键词的顺序上来标注句子的相似性,反映两个句子中所含相同词或同义词在位置关系上的相似程度,以两个句子中所含相同词或同义词的相邻顺序逆向的个数来衡量。其计算方法如下:

(S1,S2)=1-OrdSim

(S1,S2)Rev

(1,2)其中,MaxRev(S1,S2):表示S1与S2相同关键词的个数的自然数序列的最大逆序数,例:若S1与S2相同关键词的个数为4,则自然数序列为{4,3,2,1},它的逆序数为6。Rev(S1,S2):表示

S1中关键词在S2中的位置构成的自然数序列的逆序数。

反映两个句子中所含相同词或同义词在位置关系上的相似程度,以两个句子中所含相同词或同义词的相邻顺序逆向的个数来衡量。设S1、(S1,S2)为S1、S2为两个句子,OnceWordS2中

由于两个字符串都不存在的单词对两个字符串的比较没有任何作用,所以忽略t,于是采用非恒定的相似度评价系数(Jaccard系数)来描述两个字符串间的相异度表示公式为:相异度=(r+s)(/q+r+s),不难推断,他们的相似度公式为:相似度=(q+r+s)。q/

由此,可以得到句子的词形相似度。句子的相似度除了与句子中关键词的顺序、关键词之关键词有关外,还与句子长度、

间的距离有关,下面给出具体的定义与计算方法。

定义1词形相似度WordSim(S1,S2)

从句子形态以及词形上来标注句子的相似性,反映句子形态上的相似性。WordSim(S1,S2)表示S1与S2中相同关键词的个数。则词形相似度可以根据Jaccard系数来计算。其计算方法如下:

(S1,S2)SameWord

(S1)+Word(S2)-SameWord(S1,S2)Word

其中,SameWord(S1,S2)表示S1与S2相同关键词的个数,如果

(S1,S2)=WordSim

同一关键词出现多次则只算一次,其中的关键词不包含句子中的疑问词及停用词表中的词,如:为什么、怎么样、如何、的、地、得等。Word(Si)表示Si中的关键词个数,i=1,2。

在实践过程中发现名词和动词在句子中起着非常重要的

所含相同词或同义词的集合,重复出现的词仅计一次,Pfirst(S1,(S1,S2)中的词在S1中出现关键词的先后顺序S2)为OnceWord

所构成的向量(为一自然数顺序序列,重复出现的关键词计第一次出现),Psecond(S1,S2)为Pfirst(S1,S2)中的分量按对应词在S2中的次序排序生成的向量,RevOrd(S1,S2)为序列Psecond(S1,S2)的逆序数。

定义4距离相似性DisSim(S1,S2)

从相同关键词的距离上来标注句子的相似性。其计算方法如下:

(S1,S2)=1-绝对值DisSim

SameDisS-SameDisS

"DisS+DisS

())1

其中SameDis(Si)表示S1,S2中相同的关键词在Si中的距离,i=

1,2。若关键词重复出现多次,以产生最大距离为准。

(Si):表示Si中非重复关键词中最左及最右关键词之间Dis

的距离,i=1,2。若关键词出现多次,以产生最小距离值为准。

定义5句子相似度

反映两个句子之间的相似程度。通常为一个0~1之间的数值,0表示不相似,1表示完全相似,数值越大表示两句越相似。

记两个要比较的句子为S1和S2,S1与S2的相似度记为(S1,S2),则

:SenSim

周法国,杨炳儒:

句子相似度计算新方法及在问答系统中的应用

(S1,S2)=!1WordSim(S1,S2)+!2LenSim(S1,S2)+!3Ord-SenSim

(S1,S2)+!4DisSim(S1,S2)Sim

其中:!1+!2+!3+!4=1且!1≥0.5≥!2≥!3≥!4>0。

2008,44(1)167

3.3FAQ库的更新

利用2.3中介绍的方法计算出用户所输入的目标问句和候选问题集中每个问句的相似度,如果所有这些计算出来的相似度的最大值大于或等于一定的阀值m(m=0.65),那么就认为最大的相似度所对应的问句和用户的目标问句问的是同一个问题。可以直接将这个问句对应的答案输出给用户。

2.4算法描述

算法一种改进的计算句子相似度计算算法输入:要计算相似度的两个句子S1和S2输出:S1和S2的相似度

步骤1对输入的两个句子S1和S2进行分词,得到字符串

和S2′;S1′

步骤2从S1′和S2′中得到两个句子相同或相近的关键词;步骤3计算词形相似度、句长相似度、词序相似度和距离相似度;

步骤4求取句子S1和S2的相似度。

与其他算法相比,该算法中的关键词抽取部分涉及分词与词性标注(其他算法大部分仅涉及分词),在计算词形相似度时还需要借助一部同义词词典。该算法具有以下特点:

(1)简单,所利用的信息仍为句子的表层信息。

(2)保留了其他已有算法的优点,可以保证句子中的分句或短语整体移动后仍与原来的句子相似。

(3)比原算法更准确,所抽取的关键词可以近似地表达部分句法结构信息。

3基于常问问题集的中文问答系统

中文问答系统的研究开始于20世纪末,最近10年是中文

如果最大相似度的值小于阀值m(m=0.65),就可以认为(如FAQ库中没有用户所问的问题,那么必须利用其他的方法信息检索,答案抽取等)来找出答案。如果能够找到答案,就可以将用户所问的这个问题和对应的答案加入FAQ库。

问答系统的高速发展期,众多学者在中文问答系统方面做了大量的研究,取得了大量有益的研究成果,主要有基于本体的中文问答系统,基于语义相似度的中文问答系统,知识驱动的

[6]

[7]

中文问答系统[8],基于数据挖掘的中文问答系统[9],基于检索的中文问答系统[10]以及聊天机器人、基于检索的问答系统,各种形式的网络答疑系统,客户服务系统等等。其中基于知识库的问答系统是其中最主要的一种,基于知识库的问答系统中基于

4实验结果

算法在基于FAQ的机器问答系统中应用,在有1千多个

问题的问题集中进行测试,取!1=0.6,!2=0.2,!3=0.1,!4=0.1,匹配问句时选择相似度(阈值)大于等于0.65的问题中相似度最大的问句,将其答案返回。对相似度小于0.65的问句,则认为问题集中没有该问题的答案。测试平均准确率在85%以上,比文献[4]中基于词形和词序的计算方法匹配问句要高出10个以上左右的百分点。

在基于FAQ的中文问答系统中,选择了3个人进行独立测试,每个人随机地选择100个问题进行测试,测试结果如表

FAQ的问答系统是最常见的一种。

3.1基于FAQ的中文问答系统的流程

在目标问句进入基于FAQ的问答系统之前,需要将中文

句子分成词语的集合。分词部分包括对库中问题的分词,也包括对目标问句的分词。然后通过建立知识库的全文检索,选择与目标问句比较相似的一小部分集合,在这个小集合中进行相似度计算,即计算各个句子与目标问句的相似度。选择相似度的最大值,与设定的阈值进行比较。如果大于设定的闭值,则返回该答案,如果小于设定的阈值,则不返回答案,通过信息检索、答案抽取等技术来更新问题库。大致流程如图2所示。

1所示。

表1

测试人

实验测试结果

问题平均长度

准确率/%

测试问题数

3.2候选问题集的建立

这一步骤的目的是要从常问问题库(FAQ)中找出若干个

123

100100100

12.39.810.9

818985

候选的问题组成候选问题集,以缩小查找的范围,使后续的相似度计算等较复杂的处理过程都在候选问题集这个相对较小的范围内进行。在系统中,问题集存储在SqlServer2000数据库中,在建立候选问题集时,我们采用了SqlServer2000数据库管理系统自带的全文检索系统。首先,对用户输入的目标问句进行分词、关键词抽取,过滤掉停用词后,对关键词在问题域字段上进行全文检索,把和目标问句相关的记录中的问句作为候选问题集。

5结束语

在计算句子相似度时,通过关键词抽取、以及扩充同义词

词典和加大名词和动词在句子中的重要性可以明显地提高计算的准确性,自动分词和词性标注的质量也直接影响本方法的准确率。本文在一定程度上提高了计算句子相似度的正确率,但并没有对句子的语法、句法、语义等方面进行详细的分析,如

(下转178页)

1782008,44(1)ComputerEngineeringandApplications计算机工程与应用

abilityof304stainlesssteel[J].JournalofMaterialProcessingTech-(118):442-447.nology,2001

机、解释器及人机界面通过ODBC以CRecordSet类的方式访问、操作与维护数据库。

[2]VitanovVI,HarrisonDK,MincoffNH,etal.Anexpertsystem

shellfortheselectionofmetal-cuttingparameters[J].JournalofMaterialsProcessingTechnology,1995,55:111-116.

[3]刘晓义,王培东,周洪玉.基于知识处理重型切削数据库的设计与实

现[J].哈尔滨理工大学学报,2004,9(1):11-13.

[4]Tolouei-RadM,BidhendiE.Applicationofexpertsystemsforde-

terminationofmachiningparametersinmillingoperations[J].SPIE,1995,2620:582-587.

[5]RazfarR,RidgwayK.Ex-catsmill:anexpertsystemforselection

cuttingtoolsandconditionsformilling[J].AdvvancedFactoryAu-tomation,1994,398:203-207.

[6]RaoSS,ChenLi.Determinationofoptimalmachiningconditions:a

coupleduncertaintymodel[J].TransactionsoftheASME,2000,122:206-214.

[7]MachiningDataHandbook[M].3rded.Ohio:MachinabilityDataCen-

ter,1980.

[8]AssadiHMAAAl,WongSV,HamoudaAMS,etal.Develop-

mentofmachinelearningstrategyforacquiringon-linemachiningskillsduringturningprocess[J].JournalofMaterialsProcessingTech-nology,2004:36-41.

[9]邹云.铣削加工切削参数智能选择系统的研究与开发[D].四川大学,

2004.

[10]BaoWY,ChenP,TanselIN,etal.Selectionofoptimalcutting

conditionsbyusingthegeneticallyoptimizedneuralnetwork(GONNS)[C]//LectureNotesinComputerScience,2002,system

6结论

由于铣削加工参数匹配是一个复杂过程,本文探讨参数匹

配关系,对参数匹配过程中的知识进行了分类,针对产生式规则难以全面、高效构建知识库的问题,提出结合神经网络方法开发参数匹配知识库系统,经过对手册上提供最复杂的样本进行验证和知识库系统开发实现,表明提出的方法是可行的,在问较大程度上,克服了基于规则专家系统知识获取的“瓶颈”题。与其他机械加工过程相比,铣削加工的参数匹配关系更为钻削的加工复杂,因此研究成果还可推广应用于其它如车削、

过程中。但本文所构建的知识库系统,欲实现商业化应用,还要解决好如下几个问题:(1)加工参数数据库和学习样本库虽已建立,但完善它们还是一项非常繁重的工作;(2)知识库系统虽已从手册中获取大量的加工经验和知识,但还不全面,还需进一步从有经验的工程师处获取;(3)与CAPP系统的接口还需要进一步研究开发。(收稿日期:2007年8月)

2714:1026-1032.

[11]周家林,段正澄,邓建春,等.基于粒子群算法的神经网络优化及其

在镗孔加工中的应用[J].中国机械工程,2004,15(11):1927-1929.

[12]焦李成.神经网络系统理论[M].西安:西安电子科技大学出版社,

1990.

[13]孟少农.机械加工工艺手册:第1卷[M].北京:机械工业出版社,

1991.

参考文献:

[1]ChienWen-Tung,ChouChung-Yi.Thepredictivemodelformachin-

(上接167页)

果考虑到这些,在上述计算的基础上加上句法相似性的话,准确性还有可能进一步提高,这将是我们下一步研究的内容。

在机器问答系统中,本文在句子相似度计算的基础上实现了一种最简单的基于常问问题集的问答系统,而随着问答系统的发展,这种问题-答案模式的问答系统越来越显示出其局限性,模式单一,缺乏人机交互是其主要的缺陷。智能化、交互式的问答系统将是问答系统的一个主要发展方向,我们也将就此问题继续进行下一步的工作。(收稿日期:2007年8月)

设计与实现[J].小型微型计算机系统,2006,27(4):720-723.

[4]杨思君.一种改进的句子相似度计算模型[J].电子科技大学学报,

(6):956-959.2006,35

[5]李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J].计算

机应用研究,2003,20(12):15-17.

[6]骆正华,樊孝忠,刘林.本体论在自动问答系统中的应用[J].计算机

工程与应用,2005,41(32):229-232.

[7]刘小宇.基于语义理解的中文常问问答系统的研究[D].大连理工大

学,2006.

[8]李良富,樊孝忠,李宏乔,等.知识是如何驱动Q/A系统的[J].计算机

参考文献:

[1]胡国全,陈家俊,戴新宇,等.一种基于实例的汉英机器翻译策略[J].

计算机工程与设计,2005,26(4):900-903.

工程与应用,2004,40(20):70-74.

[9]QUShou-ning,WANGQin,ZOUYan,etal.Intelligentquestionan-

sweringsystembasedonDataMining[J].JournalofZhengzhouU-(2):50-54.niversity:NaturalScienceEdition,2007,39

[2]张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘

要中的应用[J].中文信息学报,2005,19(2):93-99.

[10]蔡刚山,叶俊,周曼丽.基于多级检索的自动问答系统研究[J].科学

技术与工程,2007,7(4):501-506.

[3]张亮,冯冲,陈肇雄,等.基于语句相似度计算的FAQ自动回复系统

本文来源:http://www.guakaob.com/yiyaoleikaoshi/235134.html

    【“只你唯一”相近的句子】相关推荐