专业提供论文发表咨询,国际出版,专利申请,英文期刊投稿咨询,SCI,SSCI,EI源刊,A&HCI,SCOPUS等高端学术咨询服务

推荐好友
扫一扫,关注最新学术知识和资讯

扫码关注公众号

职称驿站官方公众号

微信扫码加好友

职称驿站官方微信号
论文发表指导_期刊投稿推荐_期刊论文发表咨询_职称驿站

论文发表职称晋升 全方位咨询服务

学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询

老挝政治外交领域本体术语集构建研究

来源:职称驿站所属分类:思想政治论文发布时间:2019-10-26 09:33:04浏览:

   摘 要:政治外交领域本体术语的获取是构建相关领域本体的关键,也是进行信息抽取、信息检索的重要组成部分。文章首先利用现有资源构建了基础术语集,然后利用Word2Vec的新词推荐功能在此基础上进行扩展,最后以融合知网和同义词词林的方法进行词语语义相似度计算,筛选出合格的本体术语构建扩展术语集。由此建立起老挝政治外交领域本体术语集。

  关键词:老挝;政治外交;本体术语;信息检索;信息抽取

  中图分类号:D507;D82;H059;H083文献标识码:A

国际观察

  《国际观察》杂志(双月刊)由上海外国语大学主办,上海外国语大学国际问题研究所承办,是研究国际问题和国际政治理论的综合性刊物,创刊于1993年,并以“专稿”、“特稿”形式介绍。

  引 言

  老挝作为东南亚唯一的内陆国家[1],北邻中国,南接柬埔寨,东临越南,西北达缅甸,西南毗连泰国,素有“东南亚十字路口”之称,地理位置十分重要[2]。近年来,老撾积极响应“一带一路”倡议,在多个领域与中国进行了广泛的合作。但目前中国还未对老挝有较为全面的认识,对其政治经济制度、国内产业格局、民族、文化、宗教、风土人情等的了解还远达不到需求[3]。为了及时准确地了解老挝动态,为国家战略和政策提供重要参考,有必要加强信息基础资源的建设。随着信息时代的到来,如何使网上的海量数据形成一个互相关联的网络显得尤为重要。基于本体知识库的信息抽取和检索可以有效解决这个问题,而本体术语抽取是本体构建的首要工作,对本体学习以及基于本体的应用技术的发展具有重要意义[4]。

  本体术语的获取途径可大致分为基于规则、基于知识库、基于统计以及多策略融合的方法。雅克曼(Christian Jacquemin)[5]提出了一个描述多词术语的形态、句法和语义变化的双层模型,用于医学和农业领域的术语标准化。张桂平等[6]基于HowNet构建了面向航天领域的术语语义知识库。韦小丽等 [7]采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。杜波等 [8]设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。总的来说,基于规则的方法准确率高,操作简单,能够有效提取低频术语,但是语言学规则制定难度大,耗时耗力;基于知识库的方法无需语料库进行训练,易于理解,但知识库的建设很大程度上依赖于人的主观判断和知识结构;基于统计的方法效率高、可移植性较好,但计算量大,效果取决于语料库的规模和质量,同时针对低频术语的效果较差。以上方法各有优缺点,因此多策略融合的方法是目前术语获取的最佳途径。 本文构建的术语集主要包括两大部分:基础术语集和扩展术语集。首先,通过各种渠道对现有术语资源进行收集整理,然后利用CiteSpace从相关文献中提取领域术语,进而合并为基础术语集。接下来,以基础术语集作为种子术语,以Word2Vec、知网和同义词词林作为统计模型和知识库,利用融合的词语语义相似度计算方法进行术语拓展,形成扩展术语集。最终,两部分术语集组合成为老挝政治外交领域本体术语集。

  一 老挝政治外交领域基础术语集的构建

  (一)基础术语集简介 老挝政治外交领域基础术语集的来源可大致分为两类:现有术语资源和相关文献。现有术语资源主要包括专业词典、相关论著、权威网站等,相关文献主要是国内关于老挝政治外交的硕士与博士论文、期刊论文等。这一术语集是后续扩展术语集的基础,对整个术语集的构建起着至关重要的作用。具体流程如图1所示。

  (二)现有术语资源的收集整理 现有术语资源中的词典主要采用《老挝语汉语词典》[9]和《老挝语汉语·汉语老挝语简明外交词典》[10],前者是目前涵盖范围最广的老挝语汉语综合词典,共收6万多词条,包括古今语言、文学、宗教和各门科学用语,根据本文目的,取其中与政治外交相关部分;后者是一部外交领域的专门词典,共收词1.5万余条,内容包括外交、时政、宗教、人权、法律、科技、历史、军事、安全等各方面在外事工作中经常涉及的词汇。其他现有资源来自相关纸质、电子版著作以及权威网站,著作主要包括:《解决老挝问题的扩大的日内瓦会议文件汇编》[11]《老挝和老挝人民反对美国新殖民主义的胜利斗争》[12]《老挝战后大事记》[13]《中国古籍中有关老挝资料汇编》[14]《列国志·老挝》[15]《老挝》[16]《老挝概论》[1]《老挝:在革新中腾飞》[17]《新世纪以来GMS五国国情的演进:转型与发展研究》[18]《世界主要政党规章制度文献:越南、老挝、朝鲜、古巴》[19]《老挝史》[20]《老挝与“一带一路”》[21]《美国对老挝政策研究(1955—1963)》[22]等,权威网站包括:维基百科[23]、百度百科[24]、人民网[25]、中华人民共和国外交部[26]、中华人民共和国驻老挝人民民主共和国大使馆[27]等。 通过对上述资料进行整理及人工筛选,得到老挝政治外交领域术语672个,其中将老挝人民革命党和老挝政府各组织机构及主要领导人、老挝重要的历史事件和人物、东盟各组织机构等作为重点进行收集和整理。

  筛选标准为:

  (1)具有领域代表性;

  (2)得到较为权威的认证;

  (3)尽量遵循单义性、准确性和简明性;

  (4)涵盖广泛,全称、简称、别称等均应收录。

  其中根据实际情况,对部分术语进行了修正和更新,如涉及组织机构调整改革的,为保证术语信息的完整性以及保证后续信息检索和信息抽取的准确性,对新旧组织机构名都予以保留。 (三)基于相关文献的术语提取 本小节主要利用CiteSpace对中国知网(CNKI)中老挝政治外交领域相关文献进行可视化分析。CiteSpace最早见于2004年美国德雷塞尔大学(Drexel University)陈超美发表的Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[28],这是一款主要用于计量和分析科技文献数据的信息可视化软件,可以用来绘制科学和技术领域发展的知识图谱,直观地展现科技知识领域的信息全景,识别某一科技领域中的关键文献、研究热点和前沿方向,在实际应用中既科学有效又简单易用,且具有丰富美观的可视化效果,在国内外信息科学领域得到了广泛的应用[29]。

  在CNKI的高级检索功能中,将领域主题限定为政治或外交,将检索范围设定为老挝,由于关于老挝的文献数量较少,所以在检索老挝相关文献时采取穷尽搜索的办法,得到2834条结果(检索时间跨度为1979年1月1日—2018年8月10日)。利用CiteSpace对上述文献进行分析,如图2所示。在图2操作的基础上,对结果进行可视化处理,得到按词频排序的相关术语861个。 (四)小结 本节主要通过两个渠道构建基础术语集,其中对现有术语的收集整理主要依靠人工筛选,对老挝重要政治外交人物、政治外交事件、主要组织机构及其他相关政治外交术语做了总结和统计,获得术语672个;利用CiteSpace对CNKI相关文献进行可视化分析,获得术语861个。通过对这些术语进行领域性分析、删除重复项等操作,共获取政治外交术语1332个。

  二 老挝政治外交领域扩展术语集的构建

  扩展术语集的构建主要以上述构建的基础术语集为种子术语,利用Word2Vec的相似词推荐功能进行新词推荐,然后利用融合知網、同义词词林的词语相似度计算方法对推荐的新词进行相似度计算,最后根据实际情况设定阈值进行筛选。具体流程如图3所示。

  (一)基于Word2Vec的新词推荐

  1.Word2Vec简介

  2003年,本希奥(Yoshua Bengio)等[30]提出了一套用神经网络建立统计语言模型的框架(neural network language model),如图4所示,这为Word2Vec等后续研究奠定了基础。 2013年, 米科洛夫(Tomas Mikolov)等人提出了Word2Vec,可用于词向量计算,它可以在大规模数据集上进行高效训练,得到训练结果——词向量(word embedding),由此度量词语之间的相似度。Word2Vec是一个浅层神经网络,主要包括CBOW(continuous bag-of-words model)(如图5)和Skip-gram(如图6)两大架构模型,这两种模型实际上是互为镜像的,CBOW根据上下文预测当前单词,而Skip-gram根据给定单词预测上下文。另外,还包括层次softmax算法、负采样(negative sampling)算法以及欠采样(sub-sampling)技术等[31]。

  2.语料收集及预处理

  本文采用八爪鱼网页数据采集器进行网络爬虫操作,爬取网站主要包括百度[32]、人民网、新华网[33]、中华人民共和国外交部、中国国际广播电台国际在线网[34]以及知名公众号CRI悦生活、老挝快讯、老挝要闻、老挝那些事儿等。将采集到的数据进行过滤处理,去除图片、标签、未知符号等无效数据,然后利用AnsjSeg[35]对语料进行分词处理,最后以txt的格式进行保存。

  3.模型训练

  CBOW和Skip-gram两个模型都可用来生成词的分布式表示,CBOW训练效率更高,速度更快,Skip-gram虽然计算量较大,但训练质量更高,尤其针对低频词的效果更优,Mikolov等[31]的实验结果也印证了这一点。 因此,本研究采用Skip-gram模型。在Word2Vec的训练过程中,需要设置一些参数,以保证训练质量和速度[36]。主要参数如表1所示。 参数设置完毕后,将预处理完成的数据作为输入,便可完成Word2Vec的训练工作。然后利用训练好的模型对种子术语进行新词推荐,经实验比较,当推荐数量设置为50以上时,就会产生较多冗余词语,而设置为10以下又可能导致重要词语遗漏。综合考虑,将推荐阈值设定为20,由此建立新词术语集。

  (二)融合知网和同义词词林的词语语义相似度计算

  1.知网、同义词词林简介

  知网创建于1988年,主要是描述概念及其属性间的网状关系。创建者董振东将哲学思想贯穿于知网构建的全过程,认为世界上一切事物都在一定的时间和空间内不停地运动和变化,而且通常是从一种状态变化到另一种状态,并一般由其属性值的改变来体现。知网将高层概念分为N、V、A三大范畴,这三大范畴又包括若干子范畴,具体如表2所示。为了便于理解,其中N相当于名词,V相当于动词和部分形容词,A相当于形容词和副词,但这只是帮助认知,实际不能如此对应。 知网作为一个常识知识库,它重点刻画的是概念的共性和个性,此外概念以及属性间的各种关系也属于其描述范围,知网的全部主要文件构成了一个有机结合的知识系统[37]。概念关系示例如图7。 《同义词词林》是梅家驹等人于1983年编纂而成的,与WordNet的格式有类似之处,即都是用一个同义词集合来表示一个概念。后来哈尔滨工业大学信息检索实验室在此基础上做了改进,即《同义词词林扩展版》。该扩展版剔除了原版中大量的罕用词,最终的词表包含77 492条词语,其中一词多义的词语为8860个,共分为12个大类,94个中类,1428个小类,小类下再以同义原则划分词群,最细的级别为原子词群[38],由此形成了5层树状结构,如图8。每一层都有相应的编码符号对应,通过编码,可以精确定位每一个节点,词语编码如表3所示。

  2.融合知网、同义词词林的词语相似度计算

  本文采用朱新华等人提出的综合知网和同义词词林的词语相似度计算方法,知网部分根据义原层次结构的特征,采用了一定的边权重策略,改进了现有的基于知网的相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率[39]。 (1)改进的基于知网的词语相似度计算 该方法将词语相似度计算转换为对词语义项语义表达式(DEF)的相似度计算,而义项的相似度计算又可转化成综合独立义原集合、关系义原特征结构与关系符号义原特征结构的相似度计算,分别表示为sim1(C1,C2)、sim2(C1,C2)、sim3(C1,C2),这三项相似度因重要程度不同,所占权重也不同,其中sim1(C1,C2)占大部分比重。考虑到部分词语有多个义项,两个词语的最终相似度取所有义项组合中相似度最大的值为有效值。最终得到公式①: (2)改进的基于同义词词林的词语相似度计算 同义词词林的整体构造是一个五层树形结构,因此两个词语在词林树中的连接路径是影响词语相似度的主要因素。词林的第一层是大类,朱新华等将不属于同一个大类的词语间的距离都处理为18,同时按照低层到高层的顺序,赋予层际连接边越来越低的权重Wi(1≤i≤4),且满足:0.5≤W1≤W2≤W3≤W4≤5,W1+W2+W3+W4≤10,由此提出了一个以词语距离d为主要影响因素,分支节点数n和分支间隔k为调节参数的同义词词林词语相似度计算公式②: 式中,dis(C1,C2)是词语编码C1和C2在树状结构中的距离函数,等于词语对的连接路径中各边的权重之和,可取值2×W1、2×(W1+W2)、2×(W1+W2+W3)、2×(W1+W2+W3+W4)。

  n和k的表达式作为e的负指数,并对其开平方,以此降低公式对n和k这两个参数的敏感度,避免出现修正幅度过大的现象。 (3)知网、词林加权融合计算方法 综合考虑知网和词林的词语相似度计算的总体思想为:对于任意两个词语W1和W2,按照上述策略分别计算出它们基于知网及词林的相似度,记作s1和s2,然后根据它们在图9中的分布情况,为这两个相似度分别赋予权重λ1和λ2,且满足:λ1+λ2=1,最后按照公式③计算出综合知网和词林的词语语义相似度: 因为知网和词林属于两套不同的知识库,因此势必会出现涵盖范围不尽相同的情况。大致会出现以下情况:知网特有的词语、词林特有的词语、两者共有的词语以及两者都未包括的词语。图9中, I表示所有词语构成的全集,A表示知网涵盖的词语集,B表示词林涵盖的词语集,C表示两者的交集。 下面以“老挝人民革命党”为例展示融合策略词语相似度计算,见表4。 通过对所有推荐的新词进行相似度计算,观察发现大部分正确新词的相似值位于0.6以上,因此本文将正确术语的相似值阈值设置为0.6,以此方法可将大部分符合要求的新词术语筛选出来,然后再人工检验,得到扩展术语2430个,经过领域性分析和去除重复项等操作,最终共计获得2281个术语。

  (三)小结

  本部分主要利用Word2Vec在基础术语集的基础上进行新词推荐,然后借助知网和词林在中文词语概念上的强大描述能力和可计算化,对推荐的新词进行了相似词计算和筛选,最终得到了2281个术语,由此构建了扩展术语集。 三 结论及展望 本文利用CiteSpace、Word2Vec、知网、词林等尝试构建了老挝政治外交领域本体术语集,包括基础术语集和扩展术语集,共计3613个术语。本体术语的获取是建立领域本体的關键,是国家基础信息资源的重要组成部分,是实现政治外交领域信息化必不可少的工作。随着“一带一路”倡议的深入开展,中国和老挝之间的政治外交往来日益频繁,要想及时、准确地把握最新政治外交动态,制定相应的政策、措施,为国家发展助力,就必须加强信息抽取能力,而领域本体术语是提高该能力的“钥匙”。

  本研究仍有很多不足之处,在本体术语集构建的“深度”和“广度”上还有待进一步加强。由于老挝相关文献较少,词典等现有资源也较为匮乏,这在一定程度上制约了领域本体术语的收集。此外,本文只针对中文术语进行了获取,如果用于信息抽取等实际任务中,可能会漏掉重要的英文和老挝文文本。因此,在今后的工作中可以进一步细化概念分析框架,扩充更多的文献资源,并将术语获取拓展到英文和老挝文。同时,可以尝试其他模型和算法,取长补短,争取达到更优的效果。

《老挝政治外交领域本体术语集构建研究》

本文由职称驿站首发,您身边的高端论文发表学术顾问

文章名称: 老挝政治外交领域本体术语集构建研究

文章地址: http://www.zhichengyz.com/lunwen/xingzheng/zhengzhi/40305.html

我们的服务
  • 稿件预审

    快速预审、投刊前指导、专业学术评审,对文章进行评价

    立即咨询
  • 润色编辑

    校对编辑、深度润色,让稿件符合学术规范,格式体例等标准

    立即咨询
  • 学术翻译

    适用于语句和结构尚需完善和调整的中文文章,确保稿件达到要求

    立即咨询
  • 文章查重

    数据库包括:期刊、文章、书籍、会议、预印书、百科全书和摘要等

    立即咨询
  • 期刊推荐

    让作者在期刊选择时避免走弯路,缩短稿件被接收的周期

    立即咨询
  • 稿件格式修改

    根据目标期刊格式要求对作者文章进行全面的格式修改和调整

    立即咨询
  • 协助提交稿件

    帮助作者将稿件提交至目标期刊投稿系统,降低退稿或拒稿率

    立即咨询
  • 投稿附言指导

    按照您提供的稿件内容,指导完成投稿附信(cover letter)

    立即咨询
未能解决您的问题?马上联系学术顾问

未能解决您的问题?

不要急哦,马上联系学术顾问,获取答案!

免费获取

职称驿站 www.zhichengyz.com 版权所有 仿冒必究 冀ICP备16002873号-3