
如何分析人物形象
人物描写是为表现人物性格,揭示作品主题思想服务的。
阅读时只有了解了人物描写的方法和作用,把握人物性格特点,才能深刻理解文章的思想内容。
分析人物形象,可以从下列几方面入手。
1.从分析人物的直接描写入手。
人物直接描写(也叫正面描写),就是通过直接描写人物的肖像、行动、语言、心理等,揭示人物思想品质和性格特点,反映作品的主题。
肖像描写(也叫外貌描写) 它的作用不只在于勾画出这个人物的外部特征,而是为了以“形”来传“神”,因此分析人物外貌可以揭示人物性格特征。
行动描写和语言描写 人物行动最能体现人物的性格特点。
言为心声,人物的语言也体现着人物的思想性格,例如《范进中举》中写胡屠户的贪婪相:……即便包了两锭,叫胡屠户进来,递与他道:“方才费老爹的心,拿了五千钱来。
这六两多银子,老爹拿了去”。
屠户把银子攥在手里紧紧的,把拳头舒过来,道:“这个,你且收着。
我原是贺你的怎好又拿了去
”范进道:“眼见得我这里还有几两银子,若用完了,再来问老爹讨来用。
”屠户连忙把拳头缩了回去,往腰里揣……这里通过胡屠户的语言和动作描写,暴露了这个市侩嗜钱如命的本性。
心理描写 分析人物的心理描写,能很好的揭示人物的内心世界。
心理描写是对人物在一定环境中的思想活动描写,它往往和外貌、语言、行动交叉在一起。
有时描写了人物的外貌、行动、语言,同时也反映了人物的内心世界。
比如,孔乙己买洒时“排出九文大钱”这一动作,正反映了他在短衣帮面前炫耀的心理。
2.从侧面描写人物。
侧面描写,概括地说就是通过其他人物的言行,间接写主人公。
如用有关人物的对话,心理活动,事件叙述等烘托所要描写的主要人物的性格特征。
如《我的叔叔于勒》关于于勒的叙述和结尾景物描写,都属于侧面描写。
3.从细节描写入手。
所谓细节描写是指对人物的肖像、语言、动作、服饰、神情变化以及事物、环境的细微处进行具体描写。
分析细节描写,首先要注意细节的真实性,要经得起推敲;其次看是否具有典型意义,看其是否经过精心选择,巧妙安排。
上面提到的《故乡》一文的肖像描写和《范进中举》中的语言、动作描写,实际也都是出色的细节描写。
五年级下册语文书第一课分段概括段意内容
第一课:《草原》本文是按作者进入草原以后所经历事情的顺序来叙述的。
可分成四段。
段意:第一段:在这一段申作者运用非常贴切的打比方的句子来写具体的。
羊群一会儿上了小丘,一会儿又下来,走到哪里都像给无边的绿毯绣上了白色的大花。
作者用 无边的绿毯绣上白色的大花比喻羊群在草原上的情景。
那些小丘的线条是那么柔美,就像只用绿色演染,不用墨线勾勒的中国画那样,到处翠色欲流,轻轻流入云际。
作者用 『用绿色喧染,不用墨线勾勒的中国画比喻草原上小丘线条的柔美。
第二段:这一段主要写了主人来到几十里外欢迎远客。
从 洒脱一词体会到草原的一碧千里。
河字后面加了感叹号,说明河在草原上的重要,有了河,才能有牲口,才会有人家……)(从 远处一词看出,草原人民从很远的地方来迎接客人,体会到牧区人民情深谊长。
群马疾驰,襟飘带舞看出主人们穿着艳丽的民族服装,挥动马鞭,马跑得飞快,体会到主人迎客心切;小丘的顶部成半圆形,因为马队是从小丘上过来的,所以远看像一条彩虹向我们飞过来。
这热闹的场面打破了草原的寂静。
)第三段:(如:握手再握手,笑了再笑中的两个 再。
总是热乎乎地握着中的总是,人很多,都是从几十里外乘马或坐车来看我们的中的很多……都是……体会到主客双方的感情热烈、深厚。
)第四段:(进了蒙古包,好客的主人倒上了好茶,摆上了好豆腐,端进来大盘的手抓羊肉。
他们用自己民族特有的风味食品来款待我们。
)这充分表现了蒙汉两族人民亲如一家。
主客互相敬酒,齐声歌唱,体现了两族人民的深情厚谊。
总结全文,归纳中心。
本文通过写老舍先生第一次访问内蒙古草原看到的美色及受到蒙古族同胞热情欢迎的情景,表现了民族团结的精神。
(希望能被采纳,谢谢)
记金华的双龙洞 主要写了几个景点
一、教材解读 1.课文简说。
本文是先生早年写的一篇游记。
作者按游览的先后顺序,先写了去双龙洞途中的风光,接着写双龙洞洞口和来到外洞;再写怎样通过孔隙来到内洞;最后写出洞。
行文中还有一条线索,即作者多次写到水。
在途中是“一路迎着溪流”,来到洞口时,发现“那溪流就是从洞口流出来的”;“在外洞找了泉水的来路,原来从靠左边的石壁下方的孔隙流出”;在内洞,作者看到了“泉水靠着右边缓缓地流”,听到“声音轻轻的”。
以上两条线索十分清晰。
文章开门见山,直接点明游览的时间和地点。
又以简洁的语言写了途中所见的景物,用“眼前一片明艳”概括了山区生机盎然的春色。
再以具体、形象的语言描绘了双龙洞的特点。
“洞口像桥洞似的,很宽”;外洞很宽敞,孔隙的窄小,容得下一只小船进出。
“内洞是一团漆黑”,靠“工人高高举起汽油灯,逐一指点”才看清楚洞内的景物:首先是蜿蜒在洞顶的双龙,点名双龙洞名称的来历;其次是形状变化多端的石钟乳和石笋。
最后通过比较,觉得内洞比外洞大得多。
在记叙中,作者的语言朴素,真实可感。
如写外洞的宽敞,用“在那里聚集一千或是八百人开个会,一定不觉得拥挤”来说明,写内洞的大,用“大概有十来进房子那么大”来比拟。
写孔隙则以自己的好奇和“挤压”的感觉,真实地写出窄小的特点。
选编这篇课文的目的,一是通过阅读,让学生感受的美,激发学生热爱大自然的情趣;二是让学生通过感悟按课文记叙的游览顺序,学习有条理叙述的表达方式;体会作者用词造句的准确和朴实。
本文教学的重难点是感受溶洞的奇观,学习按游览顺序的记叙方式和运用恰当的词句描绘事物和表达思想感情。
2.词句解析。
(1)对句子的理解。
①一路迎着溪流。
随着山势,溪流时而宽,时而窄,时而缓,时而急,溪声也时时变换调子。
一个“迎”字,点名作者是逆溪流而上。
“时而……时而……”说明了溪流,由于溪流的宽窄不一,才形成流水速度的缓急不同,作者巧妙地运用“宽、窄;缓、急;”两对反义词准确地表达溪流的形和声。
由于溪流缓急不一,听到的流水声也就各不相同,犹如在“时时变换调子”。
这句话烘托了作者当时的游兴有多浓,对涓涓溪流发出如此赞叹! ②我又感觉要是把头稍微抬起一点儿,准会撞破额角,擦伤鼻子。
这句话写出作者通过孔隙时的真实感受,“稍微”,“一点儿”告诉我们只有一动不动地平躺在小船上,才能通过孔隙,以此说明孔隙小的特点,非常逼真。
运用“要是……准”的假设句式,准确地表达了作者当时受“挤压”的感觉。
③这些石钟乳和石笋,形状变化多端,再加上颜色各异,即使不比做什么,也很值得观赏。
这句话的意思是说石钟乳和石笋是非常值得观赏的,原因是形状变化多端,颜色又各异。
用“即使”这个关联词作强调,即退一步讲,如果不把这些石钟乳、石笋具体比做什么也值得观赏,说明它本身已经够吸引人了,无需再比作什么了。
(2)对词语的理解。
石钟乳:又名“钟乳石”,倒挂在溶洞顶部向下生长的一种碳酸钙沉淀物。
当地表水或降水沿着溶岩裂缝下渗至洞顶时,因水的蒸发及二氧化碳的散失,使溶在水中的碳酸钙沉淀下来,慢慢增长,具有同心圆状结构,形状如钟乳,故名“石钟乳”。
石笋:溶洞底部直立的一种碳酸钙沉淀物,它是由洞顶的水滴到洞底后,水分蒸发,水中的碳酸钙沉淀下来,由少积多,由下向上增长,形如笋状,所以叫石笋。
二、教学目标 1.认识6个生字,会写13个生字。
正确读写“浙江、油桐、拥挤、孔隙、仰卧、臀部、稍微、额角、擦伤、蜿蜒、依据、石钟乳、突兀森郁”等词语。
2.有感情地朗读课文,能背诵自己喜欢的段落。
能复述“双龙洞”的景象,感受大自然的壮观。
3.领悟按游览顺序进行叙述的写作方法,积累语言。
三、教学建议 1.课前教师可作些调查,学生有没有见过溶洞,对溶洞有些什么了解等。
2.课始,让去过溶洞的学生说说自己的见闻,师生之间相互补充,与此同时借机教学“石钟乳”“石笋”等词语。
然后揭示课题,对课文略作介绍。
3.本文生字较多,可单独安排一个环节,让学生通过联系上下文或查字典以及提出疑难,读准生字字音,初步理解词语的意思。
4.在读通课文的基础上,要求学生理清文章的思路,可以通过画示意图的方法,理清作者游览的顺序。
让学生按示意图说一说作者的游踪。
5.在深入研读时,要求学生分别找到途中、洞口、外洞、孔隙、内洞的特点,体会作者是怎样把这些特点写清楚的,引导学生对文中的重点词句反复揣摩、品味,体会其用词选句的准确与实在。
6.学生读懂课文以后,可设计一些语言运用的训练,如用“时而……时而……”句式造句;提供一句写景物某一特点的句子,然后用几句具体的话把这一特点描写出来。
7.为了深化对课文的理解,可进行一些语文实践活动。
如介绍一次旅游观光的亲身经历,或介绍自己曾经去过的一个溶洞,给课文的内洞配上插图等等。
四、 第一课时 一、谈话导入课文 同学们,你们中间有谁去过溶洞,那里的景象是怎样的
给同学们介绍一下…… 师总结:在我们生活的这个地球上,不仅在地面上有高山,大海,平原等自然的风光,而且在地下也有着很多奇妙的景观。
其中溶洞就像童话世界中的迷宫…… 结合认读“溶洞、石钟乳、石笋”等词语。
二、自学课文,认读理解生字词 1.读一读生字表中的13个生字,要求读准字音,对其中笔画较多的生字如“簇、臀、擦、蜿”等,要求识记它们的字形。
2.画出课文中的新词并根据上下文或查工具书,理解它们的大概意思。
3.。
(可以同桌之间互相询问,也可向老师提出不能理解的词语。
) 三、初读课文 1.自由朗读全文,遇到难读的句子多读几遍。
2.指名分自然段朗读。
3.默读全文,要求边读边画出作者游览路线示意图。
(可以各自进行,也可与几个同学讨论一起完成。
) 四、交流 指名出示画好的示意图。
并按图说清图意,然后相互补充或纠正不当之处。
五、对照示意图,找到相应段落再次朗读。
六、布置课堂作业 抄写词语。
第二课时 一、研读作者在去双龙洞的途中所见的景物 思考:作者见到些什么
感悟句子: 1.粉红色的山,各色的映山红,再加上或浓或淡的新绿,眼前一片明艳。
由具体的景物概括出“明艳”一词,写出金华一带山区明亮艳丽的春色。
2.随着山势,溪流时而宽,时而窄……时时变换调子。
引导发现这句话的特点。
(如有两对反义词,用,写溪水的声音)说说对这句话的理解,体会句子中的因果关系,音韵节奏感,和作者当时的心情等。
反复朗读上述句子。
二、研读洞口,外洞,内洞各自的特点,以及作者是怎样把这些特点写具体的。
1.引导学生找到课文中概括特点的词语或者能用恰当的词语概括。
洞口:像桥洞似的,很宽。
外洞:宽敞。
孔隙:窄小。
内洞:昏暗比外洞大有双龙和石钟乳 2.从文中找到作者用什么方法把这些特点写出来。
(让学生体会这些句子的意思以及采用的打比方,说感觉等手法) 着重感悟下列句子: 1.我又感觉要是把头稍微抬起一点儿……擦伤鼻子。
体验由于孔隙的窄小而形成“挤压”的感觉。
2.这些石钟乳和石笋,形状变化多端……也很值得观赏。
着重理解“即使”这部分的强调作用。
以上句子可先让学生说说自己的感受,然后作适当的点拨。
三、复述 要求学生任选双龙洞其中一个景点进行复述。
可采用导游介绍等形式进行。
四、总结全文 1.启发学生谈谈学了本文后的收获,在相互交流对话中加深对课文的理解。
2.教师小结。
五、指导造句,写段训练 1.用“时而……时而”写句子。
2.把下面两个句子表达的意思分别写具体。
(1)那棵松树的枝叶十分繁茂。
(2)登上山顶,我感到舒服极了。
六、布置课外语文活动 搜集有关溶洞的图片或文字资料。
五、相关链接 溶洞 地下水沿着可溶岩层层面,节理或裂缝进行溶蚀,坍陷扩大而成的洞穴。
洞体大小不一,形态多样。
洞内有各种碳酸钙的化学沉淀物,如钟乳石、石笋、石柱。
并常有地下河通过,洞内温度变化小,冬暖夏凉。
溶洞分两大类型:水平型溶洞和垂直型溶洞。
映山红 映山红是半常绿或落叶灌木,生长在浅山丘陵中,花开时满山遍坡呈现玫瑰红色,故得名。
又名“山石榴”、“杜鹃花”,属杜鹃花科。
春季或夏季开花,花冠呈阔漏斗形,多朵簇生于顶端。
除红、白、黄色外,还有砖红色、粉红色、紫色等多种颜色,有很高的观赏价值。
主要分布于亚、欧和北美洲。
全世界杜鹃花有八百多种,我国是世界杜鹃花的分布中心,有六百多种,和云南的玉龙山是我国杜鹃花的盛产地。
杜鹃花与报春花、龙胆花是我国的“三大名花”。
杜鹃花的根很奇特,形状多样,姿态各异,将其挖出后稍加雕琢,就是一件精美的艺术品。
杜鹃花喜欢温暖而潮湿的地方,在酸性土壤中生长尤为茂盛。
在园艺工作者的培育下,杜鹃花不仅能在春夏开花,在秋冬两季也能开花写了两个,一个是双龙洞。
一个是冰湖洞。
下面是原文:四月十四日,我在,游北山的双龙洞。
出金华城大约五公里到罗甸,过了罗甸就渐渐入山。
公路盘曲而上。
山上开满了映山红,无论花朵和叶子,都比盆栽的显得有精神。
油桐也正开花,这儿一丛,那儿一簇,很不少。
山上砂土呈粉红色,在别处似乎没有见过。
粉红色的山,各色的映山红,再加上或浓或淡的新绿,眼前一片明艳。
一路迎着溪流,随着山势,溪流时而宽,时而窄,时而缓,时而急,溪声也时时变换调子。
入山大约五公里就来到双龙洞口,那溪流就是从洞里出来的。
在洞口抬头望,山相当高,突兀森郁,很有气势。
洞口像桥洞似的,很宽。
走进去,仿佛到了个大会堂,周围是石壁,头上是高高的石顶,在那里聚集一千或是八百人开个会,一定不觉得拥挤。
泉水靠着洞口的右边往外流,这是外洞。
在外洞找泉水的来路,原来从靠左边的石壁下方的孔隙流出。
虽说是孔隙,可也容得下一只小船进出。
怎样小的小船呢
两个人并排仰卧,刚合适,再没法容第三个人,是这样小的小船。
船两头都系着绳子,管理处的工人先进内洞,在里边拉绳子,船就进去,在洞外的工人拉另一头的绳子,船就出来。
我怀着好奇的心情独个儿仰卧在小船里,自以为从后脑到肩背,到臀部,到脚跟,没有一处不贴着船底了,才说一声“行了”,船就慢慢移动。
眼前昏暗了,可是还能感觉左右和上方的山石似乎都在朝我挤压过来。
我又感觉要是把头稍微抬起一点儿,准会撞破额角,擦伤鼻子。
大约行了二三丈的水程吧,就登陆了,这就到了内洞。
内洞一片漆黑,什么都看不见。
工人提着汽油灯,也只能照见小小的一块地方,余外全是昏暗,不知道有多么宽广。
工人高高举起汽油灯,逐一指点洞内的景物。
首先当然是蜿蜒在洞顶的双龙,一条黄龙,一条青龙。
我顺着他的指点看,有点像。
其次是些石钟乳和石笋,这是什么,那是什么,大都依据形状想象成神仙、动物以有宫室、器用,名目有四十多。
这些石钟乳和石笋,形状变化多端,再加上颜色各异,即使不比做什么,也很值得观赏。
在洞里走了一转,觉得内洞比外洞大得多,大概有十来间房子那么大,泉水靠着右边缓缓地流,声音轻轻的,上源在深黑的石洞里。
我排队等候,又仰卧在小船里,出了洞。
短语结构规则
1. 引言 从50年代的机器翻译和人工智能研究算起,NLP(Natural Language Processing,自然语言处理)已有长达半个世纪的历史。
在这个进程中,学术界曾提出许多重要的理论和方法,取得了丰富的成果。
笔者认为,近二十年在这一领域中堪称里程碑式的贡献有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;( 3)语料库方法和统计语言模型。
这三个成果将继续对语言学、计算语言学和NLP研究产生深远影响。
为了更好地理解这些成果的意义, 先介绍与此相关的两个事实。
2. 两个事实 2.1 事实之一——短语结构语法不能有效地描写自然语言 在自然语言处理中,为了识别一个输入句子的句法结构,首先要把句子中的词一个一个地切分出来,然后去查词典,给句子中的每个词指派一个合适的词性(part of speech);之后再用句法规则把句子里包含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。
进而判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。
这就是一个句法分析的全过程。
本文要提到的第一个事实是:短语结构语法(Phrase Structure Grammar,简称PSG)不能有效地描写自然语言。
PSG在Chomsky语言学理论中占有重要地位,并且在自然语言的句法描写中担当举足轻重的角色。
但是它有一些根本性的弱点,主要表现为,它使用的是像词类和短语类那样的单一标记,因而不能有效地指明和解释自然语言中的结构歧义问题。
请看汉语中“V+N”组合。
假如我们把“打击、委托、调查”等词指派为动词(V);把“力度、方式、盗版、 甲方”等词视为名词(N),并同意“打击力度”、“委托方式”是名词短语(NP), “打击盗版”、“委托甲方”是动词短语(VP),那么就会产生如下两条有歧义的句法规则: (1)NP→VN (2)VP→VN换句话讲,当计算机观察到文本中相邻出现的“V+N”词类序列时,仍不能确定它们组成的究竟是NP还是VP。
我们把这样的歧义叫做“短语类型歧义”。
例如: ·该公司正在招聘〔销售V人员N〕NP。
·地球在不断〔改变V形状N〕VP。
下面再来看“N+V”的组合,也同样会产生带有短语类型歧义的规则对,如: (3)NP→NV 例:市场调查;政治影响。
(4)S→NV 例:价格攀升;局势稳定。
其中标记S代表小句。
不仅如此,有时当机器观察到相邻出现的“N+V”词类序列时,甚至不能判断它们是不是在同一个短语中。
也就是说,“N+V”词类序列可能组成名词短语NP或小句S,也有可能根本就不在同一个短语里。
后面这种歧义称为“短语边界歧义”。
下面是两个相关的例句: ·中国的〔铁路N建设V〕NP发展很快。
·〔中国的铁路N〕NP建设V得很快。
前一个例句中,“铁路 建设”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。
这足以说明, 基于单一标记的PSG不能充分地描述自然语言中的句法歧义现象。
下面再看一些这样的例子。
(5)NP→V N1 de N2 (6)VP→V N1 de N2其中de代表结构助词“的”。
例如,“〔削 苹果〕VP的刀”是NP;而“削〔苹果 的 皮〕NP”则是VP。
这里既有短语类型歧义,又有短语边界歧义。
比如,“削V苹果N”这两个相邻的词,可能构成一个VP,也可能分处于两个相邻的短语中。
(7)NP→P N1 de N2 (8)PP→P N1 de N2规则中P和PP分别表示介词和介词短语。
例如,“〔对 上海〕PP 的印象”是NP;而“对〔上海的 学生〕NP”则是PP。
相邻词“对P上海N”可能组成一个PP,也可能分处于两个短语中。
(9)NP→NumP N1 de N2其中NumP表示数量短语。
规则(9)虽然表示的是一个NP, 但可分别代表两种结构意义: (9a)NumP〔N1 de N2〕NP 如:五个〔公司的职员〕NP (9b)〔NumP N1〕NP de N2 如:〔五个公司〕NP的职员 (10)NP→N1 N2 N3规则(10)表示的也是一个NP,但“N1+N2”先结合,还是“N2+N3”先结合,会出现两种不同的结构方式和意义,即: (10a)〔N1 N2〕NP N3 如:〔现代 汉语〕NP词典 (10b)N1〔N2 N3〕NP 如:新版〔汉语词典〕NP以上讨论的第一个事实说明: ·由于约束力不够,单一标记的PSG 规则不能充分消解短语类型和短语边界的歧义。
用数学的语言讲,PSG规则是必要的, 却不是充分的。
因此,机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语,或者是什么短语,都有某种不确定性。
·采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是近二十年来全球语言学界对此作出的最重要的努力。
2.2 事实之二——短语结构规则的覆盖有限 通过大规模语料的调查,人们发现一种语言的短语规则的分布符合齐夫率(Zipf's Law)。
Zipf是一个统计学家和语言学家。
他提出,如果对某个语言单位(不论是字母还是词)进行统计,把这个语言单位在一个语料库里出现的频度(frequency)记作F,而且根据频度的降序对每个单元指派一个整数的阶次(rank)R。
结果发现R和F 的乘积近似为一个常数。
即 F[*]R≈const(常数)或者说,被观察的语言单元的阶次R与其频度F成反比关系。
在词频的统计方面,齐夫律显示,不管被考察的语料仅仅是一本长篇小说,还是一个大规模的语料库,最常出现的100 个词的出现次数就会占到语料库总词次数(tokens)的近一半。
假如语料库的规模是100万词次, 那么其中频度最高的100个词的累计出现次数大概是50万词次。
如果整个语料库含有5万词型(types),那么其中的一半(也就是2.5 万条左右)在该语料库中只出现过一次。
即使把语料库的规模加大十倍,变成1000万词次,统计规律大体不变。
有趣的是,80年代Sampson对英语语料库中的PSG规则进行统计,发现它们的分布同样是扭曲的,大体表现为齐夫率(Aarts et al. 1990)。
也就是说,一方面经常遇到的语法规则只有几十条左右,它们的出现频度极高;另一方面,规则库中大约一半左右的规则在语料库中只出现过一次。
随着语料库规模的扩大,新的规则仍不断呈现。
Chomsky 曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目是有限的,而据此生成的句子数目是无限的。
但语料库调查的结果不是这样。
这个发现至少说明,单纯依靠语言学家的语感来编写语法规则不可能胜任大规模真实文本处理的需求,我们必须寻找可以从语料库中直接获取大规模语言知识的新方法。
几十年来,NLP学界发表过大量灿烂成果,有词法学、语法学、 语义学的,有句法分析算法的,还有许多著名的自然语言应用系统。
而对该领域影响最大的、里程碑式的成果应数下面三个。
3. 三个里程碑 3.1 里程碑之一:复杂特征集 复杂特征集(complex feature set)又叫多重属性(multiple features)描写。
在语言学里,这种描写方法最早出现在语音学中,后来被Chomsky学派采用来扩展PSG的描写能力。
现在无论是在语言学界还是计算语言学界,几乎所有语法系统在词汇层的描写中均采用复杂特征集,并利用这些属性来强化句法规则的约束力。
一个复杂特征集F 包含任意多个特征名f[,i]和特征值v[,i]对。
其形式如: F={…,fi=vi,…},i=1,…,n特征值v[,i]既可以是一个简单的数字或符号, 也可以是另外一个复杂特征集。
这种递归式的定义使复杂特征集获得了强大的表现能力。
如北京大学俞士汶等(1998)开发的《现代汉语语法信息词典详解》,对一个动词界定了约40项属性描写,对一个名词界定了约27项属性描写。
一条含有词汇和短语属性约束的句法规则具有如下的一般形式: 〈PSG规则〉:〈属性约束〉 :〈属性传递〉一般来说,PSG 规则包括右部(条件:符号序列的匹配模式)和左部(动作:短语归并结果)。
词语的“属性约束”直接来自系统的词库,而短语的“属性约束”则是在自底向上的短语归并过程中从其构成成分的中心语(head)那里继承过来的。
在Chomsky的理论中这叫做X-bar 理论。
X-bar代表某个词类X所构成的、仍具有该词类属性的一个成分。
如果X=N,就是一个具有名词特性的N-bar。
当一条PSG 规则的右部匹配成功,且“属性约束”部分得到满足,这条规则才能被执行。
此时,规则左部所命名的短语被生成,该短语的复杂特征集通过“属性传递”部分动态生成。
20世纪80年代末、90年代初学术界提出了一系列新的语法,如广义短语结构语法(GPSG)、中心语驱动的短语结构语法(HPSG)、词汇功能语法(LFG)等等。
这些形式语法其实都是在词汇和短语的复杂特征集描写背景下产生的。
合一(unification )算法则是针对复杂特征集的运算而提出来的。
“合一”是实现属性匹配和赋值的一种算法,所以上述这些新语法又统称为“基于合一的语法”。
3.2 里程碑之二:词汇主义 在NLP领域中,第二个里程碑式的贡献叫词汇主义(lexicalism )。
语言学家Hudson(1991)曾宣称词汇主义是当今语言学理论发展的头号倾向。
其出现原因也同前面所观察的两个事实有关。
词汇主义方法不仅提出了一种颗粒度更细的语言知识表示形式,而且体现了一种语言知识递增式开发和积累的新思路。
这里首先要解释一下这样一个矛盾。
一方面,语言学界一向认为,不划分词类就无法讲语法,如前面介绍的短语结构语法。
也就是说,语法“不可能”根据个别的词来写规则。
但是另一方面,人们近来又注意到,任何归类都会丢失个体的某些重要信息。
所以从前文提到的第一个事实出发,要想强化语法约束能力,词汇的描写应当深入到比词类更细微的词语本身上来。
换句话讲,语言学呼唤在词汇层采用颗粒度更小的描写单元。
从本质上来说,词汇主义倾向反映了语言描写的主体已经从句法层转移到词汇层;这也就是所谓的“小语法,大词库”的思想。
下面我们来看与词汇主义有关的一些工作。
3.2.1 词汇语法(Lexicon-grammar) 法国巴黎大学Gross教授在20世纪60 年代就创立了一个研究中心叫LADL,并提出词汇语法的概念( ladl. jussieu. fr\\\/)。
·把12,000个主要动词分成50个子类。
·每个动词都有一个特定的论元集。
·每一类动词都有一个特定的矩阵,其中每个动词都用400 个不同句式来逐一描写(“+”代表可进入该句式;“-”表示不能)。
·已开发英、法、德、西等欧洲语言的大规模描写。
·INTEX是一个适用于大规模语料分析的工具, 已先后被世界上五十多个研究中心采用。
3.2.2 框架语义学(Frame Semantics) Fillmore是格语法(Case Grammar)的创始人,他前几年主持了美国自然科学基金的一个名为框架语义学的项目( icsi. berkeley. edu\\\/framenet)。
该项目从WordNet上选取了2000个动词,从中得到75个语义框架。
例如动词“categorize”的框架被定义为: 一个人(Cognizer)把某个对象(Item)视为某个类(Category)。
同原先的格框架相比, 原来一般化的动作主体被具体化为认知者Cognizer,动作客体被具体化为事物Item,并根据特定体动词的性质增加了一个作为分类结果的语义角色Category。
项目组还从英国国家语料库中挑出相关句子50,000个, 通过人工给每个句子标注了相应的语义角色。
例如: Kim categorized the book as fiction. (Cog) (Itm) (Cat) 3.2.3 WordNet WordNet是一个描写英语词汇层语义关系的词库,1990 年由普林斯顿大学Miller开发(cogsci. princeton. edu:80\\\/~wn\\\/),到现在已有很多个版本,全部公布在因特网上,供研究人员自由下载。
欧洲有一个Euro-WordNet,以类似的格式来表现各种欧洲语言的词汇层语义关系。
WordNet刻意描写的是词语之间的各种语义关系, 如同义关系(synonymy)、反义关系(antonymy)、上下义关系(hyponymy),部分一整体关系(part-of)等等。
这种词汇语义学又叫做关系语义学。
这一学派同传统的语义场理论和语义属性描写理论相比,其最大的优势在于第一次在一种语言的整个词汇表上实现了词汇层的语义描写。
这是其他学派从来没有做到的。
其它理论迄今仅仅停留在教科书或某些学术论文中,从来没有得到工程规模的应用。
下面是WordNet的概况: ·95,600条实词词型(动词、名词、形容词) ·被划分成70,100个同义词集(synsets) 3.2.4 知网(How-Net) 知网是董振东和董强(1997)设计的一个汉语语义知识网(http:\\\/\\\/ com)。
·自下而上地依据概念对汉语实词进行了穷尽的分类。
·15,000个动词被划分成810类。
·定义了300个名词类,100个形容词类。
·全部概念用400个语义元语来定义。
知网的特点是既有WordNet 所描写的同一类词之间的语义关系(如:同义、反义、上下义、部分-整体等),又描写了不同类词之间的论旨关系和语义角色。
3.2.5 MindNet MindNet是微软研究院NLP组设计的( microsoft.com\\\/nlp\\\/)。
其设计思想是试图用三元组(triple )作为全部知识的表示基元。
一个三元组由两个节点和一条连接边组成。
每个节点代表一个概念,连接这两个概念节点的边表示概念之间的语义依存关系。
全部三元组通过句法分析器自动获取。
具体来说,就是通过对两部英语词典(Longman Dictionary of Contemporary English和American Heritage Dictionary)及一部百科全书(Encarta)中的全部句子进行分析, 获得每个句子的逻辑语义表示(logical form,简称LF)。
而LF本来就是由三元组构成的,如(W1,V-Obj,W2)表示:W1是一个动词, W2是其宾语中的中心词,因此W2从属于W1,它们之间的关系是V-Obj。
比如(play,V-Obj,basketball)便是一个具体的三元组。
又如(W1,H-Mod,W2),W1代表一个偏正短语中的中心词(head word),W2 是其修饰语(modifier),因此W2从属于W1,它们之间的关系是H-Mod。
这种资源完全是自动做出来的,所得的三元组不可能没有错误。
但是那些出现频度很高的三元组一般来说是正确的。
MindNet 已经应用到语法检查、句法结构排歧、词义排歧、机器翻译等许多场合。
3.3 里程碑之三:统计语言模型 第三个贡献就是语料库方法,或者叫做统计语言模型。
如果用变量W 代表一个文本中顺序排列的n个词,即W=w[,1]w[,2]…w[,n], 则统计语言模型的任务是给出任意一个词序列W在文本中出现的概率P(W )。
利用概率的乘积公式,P(W)可展开为: P(W)=P(w[,1])P(w[,2]│w[,1])P(w[,3]│w[,1]w[,2])...P(w[,n]│w[,1]w[,2]…w[,n-1]) (1)式中P(w[,1])表示第一个词w[,1]的出现概率,P(w[,2]│w[,1])表示在w[,1]出现的情况下第二个词w[,2]出现的条件概率,依此类推。
不难看出,为了预测词w[,n]的出现概率, 必须已知它前面所有词的出现概率。
从计算上来看,这太复杂了。
如果近似认为任意一个词w[,i] 的出现概率只同它紧邻的前一个词有关,那么计算就得以大大简化。
这就是所谓的二元模型(bigram),由(1)式得: P(W)≈P(w[,1])Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1]) (2)式中Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1])表示多个概率的连乘。
需要着重指出的是:这些概率参数都可以通过大规模语料库来估值。
比如二元概率 P(w[,i]│w[,i-1])≈count(w[,i-1]w[,i])/count(w[,i- 1]) (3)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。
若语料库的总词次数为N, 则任意词w[,i]在该语料库中的出现概率可估计如下: P(w[,1])≈count(w[,i])/N同理,如果近似认为任意词w[,i]的出现只同它紧邻的前两个词有关, 就得到一个三元模型(trigram): P(W)≈P(w[,1])P(w[,2]│w[,1])Ⅱ[,i=3,…,n]P(w[,i]│w[,i-2]w[,-1]) (5) 统计语言模型的方法有点像天气预报。
用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录,而用三元模型来做天气预报,就像是根据前两天的天气情况来预测当天的天气。
天气预报当然不可能百分之百正确。
这也算是概率统计方法的一个特点。
3.3.1 语音识别 语音识别作为计算机汉字键盘输入的一种替代方式,越来越受到信息界人士的青睐。
所谓听写机就是这样的商品。
据报道,中国的移动电话用户已超过一亿,随着移动电话和个人数字助理(PDA)的普及, 尤其是当这些随身携带的器件都可以无线上网的时候,广大用户更迫切期望通过语音识别或手写板而不是小键盘来输入简短的文字信息。
其实,语音识别任务可视为计算以下条件概率的极大值问题: W[*]=argmax[,W]P(W│speech signal) =argmax[,W]P(speech signal│W)P(W)/ P(speech signal) =argmax[,W]P(speech signal│W)P(W) (6)式中数学符号argmax[,w]表示对不同的候选词序列W计算条件概率P (W│speech signal)的值,从而使W[*] 成为其中条件概率值最大的那个词序列,这也就是计算机选定的识别结果。
换句话讲,通过式(6 )的计算,计算机找到了最适合当前输入语音信号speech signal的词串W[ *]。
式(6)第二行是利用贝叶斯定律转写的结果,因为条件概率P (speech signal│W)比较容易估值。
公式的分母P(speech signal)对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。
在第三行所示的结果中,P(W)就是前面所讲的统计语言模型,一般采用式(5)所示的三元模型;P(speech signal│W)叫做声学模型。
到此,读者可能已经明白,汉语拼音输入法中的拼音—汉字转换任务其实也是用同样方法实现的,而且两者所用的汉语语言模型(即二元或三元模型)是同一个模型。
目前市场上的听写机产品和微软拼音输入法(3.0 版)都是用词的三元模型实现的,几乎完全不用句法—语义分析手段。
因为据可比的评测结果,用三元模型实现的拼音-汉字转换系统,其出错率比其它产品减少约50%。
3.3.2 词性标注 一个词库中大约14%的词型具有不止一个词性。
而在一个语料库中,占总词次数约30%的词具有不止一个词性。
所以对一个文本中的每一个词进行词性标注,就是通过上下文的约束,实现词性歧义的消解。
历史上曾经先后出现过两个自动词性标注系统。
一个采用上下文相关的规则,叫做TAGGIT(1971),另一个应用词类的二元模型,叫做CLAWS (1987)(见Garside et al.1989)。
两个系统都分别对100 万词次的英语非受限文本实施了词性标注。
结果显示, 采用统计语言模型的CLAWS系统的标注正确率大大高于基于规则方法的TAGGIT系统。
请看下表的对比:系统名 TAGGIT(1971) CLAWS(1987)标记数 86 133方法 3000条CSG规则 隐马尔科夫模型标注精度 77% 96%测试语料 布朗 LOB 令C和W分别代表词类标记序列和词序列,则词性标注问题可视为计算以下条件概率的极大值: C[*]=argmax[,C]P(C│W) =argmax[,C]P(W│C)P(C)/P(W) ≈argmax[,C]Ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,i-1]) (7)式中P(C│W)是已知输入词序列W的情况下,出现词类标记序列C 的条件概率。
数学符号argmax[,C] 表示通过考察不同的候选词类标记序列C,来寻找使条件概率取最大值的那个词类标记序列C[*]。
后者应当就是对W的词性标注结果。
公式第二行是利用贝叶斯定律转写的结果,由于分母P(W)对给定的W是一个常数,不影响极大值的计算,可以从公式中删除。
接着对公式进行近似分析。
首先,引入独立性假设,认为任意一个词w[,i] 的出现概率近似只同当前词的词类标记c[,i]有关, 而与周围(上下文)的词类标记无关。
于是词汇概率可计算如下: P(W│C)≈Ⅱ[,i=1,…,n]P(w[,i]│c[,i]) (8)其次,采用二元假设,即近似认为任意一个词类标记c[,i] 的出现概率只同它紧邻的前一个词类标记c[,i-1]有关。
则 P(C)≈P(c[,1])Ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9)P(c[,i]│c[,i-1])是词类标记的转移概率, 也叫做基于词类的二元模型。
上述这两个概率参数都可以通过带词性标记的语料库来分别估计: P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i]) (10) P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]) (11) 据文献报道,采用统计语言模型方法,汉语和英语的词性标注正确率都可以达到96%左右(白拴虎1992)。
3.3.3 介词短语PP的依附歧义 在英语中,介词短语究竟依附于前面的名词还是前面的动词,是句法分析中一种常见的结构歧义问题。
下例表明怎样用语料库方法解决这个问题,以及这种方法究竟能达到多高的正确率。
例句:Pierre Vinken, 61 years old, joined the board as a nonexecutive director.令A=1表示名词依附,A=0为动词依附,则上述例句的PP依附问题可表为: (A=0,V=joined,N1=board,P=as,N2=director)令V,N1,N2分别代表句中动词短语、宾语短语、介宾短语的中心词, 并在一个带有句法标注的语料库(又称树库)中统计如下四元组的概率P[,r]: P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2) (10)对输入句子进行PP依附判断的算法如下: 若P[,r]=(1│v,n1,p,n2)≥0.5, 则判定PP依附于n1, 否则判定PP依附于v。
Collins & Brooks(1995)实验使用的语料库是宾夕法尼亚大学标注的《华尔街日报》(WSJ)树库,其中包括:训练集20,801个四元组,测试集3,097个四元组。
他们对PP依附自动判定精度的上下限作了如下分析: 一律视为名词依附(即A≡1) 59.0% 只考虑介词p的最常见依附 72.2% 三位专家只根据四个中心词判断 88.2% 三位专家根据全句判断 93.2%很明显,自动判断精确率的下限是72.2%,因为机器不会比只考虑句中介词p的最常见依附做得更差;上限是88.2%, 因为机器不可能比三位专家根据四个中心词作出的判断更高明。
论文报告,在被测试的3,097个四元组中,系统正确判断的四元组为2,606个,因此平均精确率为84.1%。
这与上面提到的上限值88.2%相比,应该说是相当不错的结果。
4. 结论 语言学家的努力,不论是用复杂特征集和合一语法,还是词汇主义方法,都是在原先所谓的理性主义框架下作出的重大贡献。
词汇主义方法特别值得推崇,因为它不仅提出了一种颗粒度更细的语言知识表示形式,而且体现了一种语言知识递增式开发和积累的新思路。
尤其值得重视的是在众多词汇资源的开发过程中,语料库和统计学方法发挥了很大的作用。
这也是经验主义方法和理性主义方法相互融合的可喜开端。
笔者相信,语料库方法和统计语言模型是当前自然语言处理技术的主流,它们的实用价值已在很多应用系统中得到证实。
统计语言模型的研究,尤其在结构化对象的统计建模方面,仍有广阔的发展空间。
【参考文献】: Aarts, Jan & Willen Meijs (eds.). 1990. Corpus Linguistics: Theory and Practice〔C〕. Amsterdam: Rodopi. Collins, M. and J. Brooks. 1995. Preposition phrase attachment through a backed-off model〔P〕. In Proceedings of the 3rd Workshop of Very Large Corpora. Cambridge, Mass. Garside, R., G. Leech and G. Sampson, (eds.). 1989. The Computational Analysis of English: A Corpus-Based Approach〔C〕. London: Longman. Hudson, R. A. 1991. English Word Grammar〔M〕. Cambridge, Mass.: Basil Blackwell. 白拴虎,1992,汉语词性自动标注系统研究〔MA〕。
清华大学计算机科学与技术系硕士学位论文。
董振东、董强,1997,知网〔J〕。
《语言文字应用》第3期。
俞士汶等,1998,《现代汉语语法信息词典详解》〔M〕。
北京:清华大学出版社。
怎样概括中心思想
义务教育课程标准实验教科书语文三上文章描述的主要意思。
概括主要内容的方法1要素串连法(时间、地点、人物,事情的起因、经过、结果)2部分合并法(串段意、意思相近的合并)3句子摘录法(摘录文章中的重点句子,用通顺的话连接起来)一要素串连法抓“六要素”(时间、地点、人物、事件起因、经过、结果)如:3爬天都峰时间:假日里地点:天都峰人物:老爷爷、爸爸和我起因:天都峰高而险,我们要爬上天都峰经过:我和老爷爷互相鼓励,从对方身上汲取力量。
结果:我们战胜困难爬上天都峰。
主要内容:假日里,我和爸爸去爬天都峰。
天都峰又高又险,我们偶遇一位老爷爷,他和我互相鼓励,从对方身上汲取力量,最终战胜困难,爬上了天都峰。
课文时间人物宋庆龄和他的爸爸做了什么父亲要带庆龄去伯伯家结果怎么样因为讲诚信,小小年纪的宋庆龄选择信守承诺去小珍家。
《我不能失信》一个星期天《奇怪的大石头》李四光和他的父亲以及老师列宁和小摄影师玩耍时发现大石不断学习研究,解头,产生疑问。
开了奥秘,有了很询问老师和爸爸大的成就。
都没有得到答案。
列宁百忙中安排小摄影师为自己照相。
小摄影师忘记带胶卷回去取,列宁仍记挂着他。
《小摄影师》《灰雀》有一年冬天列宁和小男孩小男孩捉了灰雀,小男孩放回了灰雀。
列宁没有批评,用自己的爱心感动了小男孩。
小



