
目前高职教育的取向成为热点话题,有观点认为职业教育就是“就业教育”,强调“以就业为导向”,教育服务产品主要体现在人才培养方案的设计应紧扣用人单位的需求。也有不少高职教育工作者认为高职教育也是高等教育的一部分,首先还应遵循“教育是促进人的全面发展”传统教育观念,并在高职教育培养两大目标———“高素质、高技能”中应坚持前者优先于后者。以上两类主流观点的产生和冲突与高职教育脱胎于传统学科教育的背景有关。前者试图通过强调“就业“”应用”来突出高职教育与学科教育的区别;后者试图通过强调高职教育仍是教育来矫正前者的过度偏移,但未提出合适的思路。本文先指出高“就业”导向的缺陷,继而以体育高职教育为例提出“职业导向”和重视职业素养的办学探索思路。
一、高就业导向的几个问题
现今,常用就业率的高低作为标准来衡量某一高职教育专业开办是否成功。但高职教育如果片面追求高技能,去实现零距离就业,那么高职教育将沦为企业的岗位培训,失去其教育的属性。
1.从用人单位对雇员的要求来看
至少包括素质和能力两方面的要求前者往往是隐性的,后者则是显性的,可考量。有的学校将“以就业为导向”的办学理念中的就业要求,片面地理解为仅包括可考量的技能的要求,于是,试图在课程设置方面努力达到与应用场景“零距离”,努力培养学生的技能,将非常有限的教育时间投放在企业所擅长的业务培训领域。用人单位往往认为许多岗位的新手通过企业上岗前的培训和几个月的帮带便可成熟了,而用人单位非常重视的思维、性格、意志、职业操守等素质,却无法通过内部培训来培养。因此,用人单位往往在大学生招聘中找到素质较好的苗子进行业务培养。高职教育这种舍本逐末的做法若持之日久,则会因其业务技能培养与企业培训相比较效率低下而失去存在的部分价值。
2.从调研的专业角度来分析
要与三年后业态的用工需求“零距离”,是难以达到的在“以就业为导向”的办学理念指导下,高职各专业通过对目标市场进行专业需求调研,描绘出岗位的关键能力需求,并通过课程来体现,自我要求高者提出“零距离”。这种借鉴STP营销思路的专业建设思路,比起之前完全按照学科体系、无视用人单位需求闭门造车式设置和建设专业的做法,无疑是先进很多。但这种思路需要对至少后三年的用工需求和能力要求进行精确预测,而人才市场与其他市场一样存在着许多变数,基本上是难以实现的。
3.从学生个体作为人的生存和发展需要来看
就业或许可以说是很重要的一部分,但不应视为全部仅盯住某一类岗位的入职要求来指引学生,也存在着给受教育者带来难以应对未来变化的潜在风险。美国劳工部一项研究预测,现在20岁的年轻人在今后一生的.工作时间内,职业的转换将会达到6~7次之多。这种情况表明,一个人一辈子固定在一种职业或一个工作岗位上的时代即将消失,我国社会也发生着同样的变化。职业或岗位的变换并非无条件的,它要求变换职业或岗位的人能适应变化了的环境、变化了的工作,否则就有失业的危险。从这个角度来看,高职教育至少应从促进学生能力素质的持续发展出发,在高素质的基础上追求高技能,注重培养学生的创新思维与创新能力,为学生的终身就业打下坚实的基础。
二、注重培养大学生职业素养
从就业市场和高职学生终身学习这两种需求从发,高职院校可分析自身教学活动所提供的服务产品在教育服务市场的比较优势,进而从专业素养和职业素养两个维度来设计服务产品。下面,以体育职业技术学院为例,探讨这种专业设置思路。在教育服务产品提供者市场上,体育职业技术学院的目前主要竞争对手是本科层次的体育学院和其他类型的职业技术学院。体育职业技术学院与本科层次的体育学院在教育服务市场上的竞争区别主要是职业化教育和学科应用化教育;与其他类型的职业技术学院相比,体育职业技术学院有明显的区别优势———体育类教育服务。因此,体育职业技术学院的比较优势在于其提供的教育服务是体育类及职业化。将这两大比较优势进行内涵上的丰富,并形成体育职业技术学院教育服务产品选择和设计时应考虑的两个维度:体育素养和职业素养。
1.体育素养
体育职业技术学院是体育类院校,以体为本,这也是与其他类职业院校竞争的比较优势之一。体育职业技术学院的教育服务产品应强调对体育素养的培养。《辞海》对素质一词的定义为:
(1)人的生理上的原来的特点;
(2)事物本来的性质;
(3)完成某种活动所必需的基本条件。在高等教育领域中,素质应是第三个定义,那就是大学生从事社会实践活动所具备的能力。素养和素质含义接近,但素养与素质相比更强调后天不断修习涵养的作用,即学习提高的重要性。在“中国知网”中,搜索学术定义———“体育素养”有不少定义,但都是从别的角度去定义这一名词的。在此尝试定义适合于体育职业技术学院培养人才使用的体育素养:经过体育职业技术学院的培养,学生或学员在体育技能与行为、体育知识与意识、体育个性与品德等方面形成并可持续发展的综合素质与修养。这一定义先在此提出来,可在日后的实践中不断丰富其内涵。具体来说,体育职业技术学院培养人才所提及的体育素养至少应包括如下几个方面:
(1)体育技能与行为,
(2)体育知识与意识,
(3)体育个性与品德。上面三项中,前两项属于显性体育素养,可以通过各种课程考试成绩、职业证书(如某项社会体育指导员证书)来证明,或者通过专业考试(如笔考或技能考试)来验证;后一项属于隐性体育素养,体育对人格培养作用已有诸多论著,在此不再转述。一般来说,体育职业技术学院都会注重对学生显性体育素养的培养,使得学生有一技之长,但往往忽视对学生隐性体育素养的有意识培养。从学生长远发展的角度来看,隐性体育素养的提升会使其获得更为广阔的发展空间。
2.职业素养
体育职业技术学院是职业型院校,以市场为导向,是体育职业技术学院与其他类型体育院校竞争的比较优势所在。体育职业技术学院的教育服务产品应强调对职业素养的培养。在“中国知网”中,搜索学术定义———“职业素养”(Occupationalquali-ty)并不多,有一条定义较接近体育职业技术学院培养人才使用的职业素养定义:指职业内在的规范和要求,是在职业过程中表现出来的综合品质,包含职业道德、职业技能、职业行为、职业作风和职业意识等方面。根据体育职业技术学院的具体情况,将上述定义进行一定的修正,得出合适于体育职业技术学院培养人才使用的职业素养定义:经过体育职业技术学院的培养,学生或学员成为该专业方向所瞄准的职业或行业的入门人时初步具备的综合品质,包含职业道德、职业技能、职业行为、职业作风和职业意识等。具体来说,体育职业技术学院培养人才所提及的职业素养至少应包括如下四个方面:
(1)职业技能。如从运动员转变为健身教练,需要有能力将运动技能转化为指导技能。
(2)职业意识(或思想)。
(3)职业行为习惯。
(4)职业道德。上面四项中,第一项属于显性职业素养,是支撑职业人生的表象内容;后三项属于隐性职业素养,是职业素养中最根基的部分。职业技能是通过学习、培训比较容易获得。例如,体育职业技术学院可以通过三年时间使得学生掌握体育、计算机等属职业技能范畴的入门技能,并在实践运用中日渐成熟而成专家。而隐性职业素养代表职业意识、职业道德、职业作风和职业态度等方面,虽然看不见,但决定着外在的显性职业素养。决定一个技能人才长远发展和成就的,不是传统意义上的技能,而是其职业素养。从教育服务产品的角度来说,体育职业技术学院在教育服务市场的产品功能定位便可视为致力于提高学生(或学员)的体育素养和职业素养。
3.二个维度建立起核心竞争力评价模型
将上面分析得出的二个维度作为四象限分析法的坐标,便可得出体育职业技术学院教育服务产品的核心竞争力评价模型。在模型图(篇幅所限,图略)中,共有四个象限,各代表体育职业技术学院的教育服务产品(专业)在学生体育素养和职业素养两方面的提升作用大小的组合,Ⅳ象限表示体育素养和职业素养两方面的提升作用都较大,是教育服务产品提升核心竞争力的努力方向。
三、以职业素养和专业素养评价专业建设的合理性
这种职业素养和专业素养的评价思路,相对于目前流行的用就业率作为评价标准来说,更为科学。除了提升学生就业水准和获取更多更准的就业信息外,就业率往往由许多教育机构所不可控的因素决定,如宏观经济、微观经济中细分行业及企业的年景、学生原有基础、学生及家长所拥有的有利于就业的社会资源、偶然因素等,这些因素在培养人才的三年期间变数极多。用由这些因变量决定的就业率来否定或肯定某个教育服务产品,明显是不科学的。此外,这种评价思路往往更注意其隐性素养的培养,更有利于创建专业特色。例如一些体育职业技术学院有市场营销专业方向,这一专业从表面上来看见似乎与体育不沾边,几乎无法与其他院校同类专业竞争时形成优势。但如果这专业注重对学生的体育个性与品德等这些隐性体育素养进行有意识培养,则可以在国内各大高校的市场营销专业比较中独树一帜,形成巨大的比较优势。
四、结束语
高职教育的取向,永远是一个社会热点。有人认为,职业教育应该以就业为导向,本质上就是“就业教育”,高校应该紧扣用人单位的需求制定合适的人才培养方案。也有不少高职教育工作者认为,高职教育是高等教育的一个重要组成部分,应该将促进人的全面发展作为教育重点,而且“高素质”应该优先于“高技能”。以上两类主流观点的产生和冲突,与高职教育脱胎于传统学科教育的背景有关。前者试图通过强调“就业”“应用”来突出高职教育与学科教育的区别;后者试图通过强调高职教育仍是教育来矫正前者的过度偏移,但未提出合适的思路。本文先指出高“就业”导向的缺陷,继而以体育高职教育为例提出“职业导向”和重视职业素养的办学探索思路,以提高当代大学生综合素质,为社会培养合格的应用型人才。
课题:二十年后的学校
课时2课时
学习领域探索.造型
教学目标:
1、知识:了解学校的各种设施配备,学会设计规划学校布局。
2、技能:学会设计未来学校蓝图,并能用各种材料制作建筑模型。
3、情感:对母校的热爱,对美好未来的追求。
教学重点:用各种方法、材料制作未来的学校模型。第一课时:设计制作学校的平面图
第二课时:设计制作学校的立体模型。
教学难点:大胆想象,小组协作,创想出与众不同的学校创意。第一课时:学校建筑的布局。
第二课时:设计与众不同的未来的建筑。
教具准备课件、学校平面图、不同材料的立体学校模型(3——4个)、示范的作品(半成品)
学具准备第一课时:每个小组一张kt板(深色),剪好的各种形状的白纸(做学校的设施),彩笔,白纸,剪刀、胶水
第二课时:各种纸盒、肥皂、泡沫塑料、彩纸、硬纸板、广告色、乳白胶、美工刀、尺、笔、剪刀、胶水
课件内容:
1、自己学校的校舍等图片。
2、先进地区的学校图片或视频。
3、未来的学校设计
4、学校平面效果图
5、制作方法与步骤
教学评价:
1、设计制作的学校模型是否合理,美观。
2、大胆想象,创想出与众不同的未来学校创意。
3、学生是否能在小组间愉快而有序的讨论、交流与合作。
第(一)课时
教学过程:
活动一:我们的学校
设计意图:回忆在学校生活的美好生活,激发学生对学校的热爱和为母校设计美好的未来的情感。
1、歌曲:毕业歌
听这优美的旋律,是广为流传的毕业歌。不久的将来我们就要告别小学生活了,你想到了什么?(学生谈)
2、我们回忆起在学校里度过的快乐时光。让我们一起再来看看我们的学校,(本校的照片)虽然我们的环境比较简陋,但在教室里大家一起学习、在操场上一起游戏,校园的每个角落都有我们美好的回忆。
2、想不想到城市里看看那儿的学校是怎样的呢?
(出示现代化的大学校图片或录像片断介绍)
(大门——电动感应)
(教学楼——宽敞明亮)
(操场——塑胶跑道、绿草坪)
(综合楼——实验室、美术、舞蹈……)
(办公楼——现代化的办公设施)
(绿化——绿树成荫)
给你什么感受?
想不想让我们的学校也能更加美丽,今天我们年龄还小,但二十年后,你们已经长大成人,让我们都来做建筑设计师,为我们学习生活过的学校出一点力,规划我们二十年后的学校吧!
出示课题:
活动二:探究实践
设计意图:学习怎样设计建筑的方法、步骤,解决本课时的教学重难点。
1、让我们先来看看建筑设计师是怎样设计学校的?
先要了解学校需要那些建筑,功能是怎样分工的?
(请同学们分组说一说,然后,找2——3组同学发言)
然后进行布局
画出设计稿
设计稿分平面图和立体效果图,
2、(出示平面图)小组研究一下平面图画的是建筑的哪一个面?(顶——也就是俯视面)
除了主要的建筑外,还要规划出那些地方?(道路、绿化等细节)。
3、(出示立体的效果图)
立体的'效果图,还要画出建筑那些部分?(层数、形状与颜色。)
分析(出示建筑的样子)
这些建筑的形状可以归纳成什么基本形……——基本形的组合
4、学校都有那些部分组成的?让学生分析学校的布局结构:
大门——道路——绿化带——教学楼——体育馆——操场(跑道)……
(出示平面的相应部分,无规律的粘贴在准备好的学校蓝图上)
5、布局
老师引导学生把刚才乱粘的各个部分组织起来,(每个小组一幅)标出各个设施的用途。
6、二十年后的学校建筑会有怎样的变化与创新。
先请同学们看看我们的设计师设计的未来的学校。
老师的范作(立体效果图):
讲解介绍
建筑的主体:锥形
门、窗(形状、颜色、排列)
这是老师设计的彩虹旋转式教学楼,他的每个教室可以慢慢的旋转变换位置,让你每天都有不同的景色欣赏。
你有什么更好的创意吗?(学生大胆想象发言)
活动三、创作.评析
设计意图:让学生大胆想象积极创新,合作出未来学校的蓝图。总结本课的学习成果。
1、分小组讨论
你们想怎样设计未来的学校
2、小组规划出平面设计图,并给每个人分工设计一个建筑的立体效果(画出来)。
每一小组发一张kt板,下节课可以在设计的平面图基础上制作立体的模型。
3、介绍自己小组的设计意图与创意。
活动四、拓展
设计意图:为下节课做准备。
小组讨论下节课制作建筑模型所需要的材料。
第二课时
活动一、导入课题:
设计意图:引出本课的学习内容。
(欣赏上节课的的学生作业——规划图)
在上节课中,我们同学发挥了奇思妙想,为我们的学校设计了二十年后的样子,但是今天我们还没有能力把它变成现实,那我们就把它做成精美的模型,送给我们的学校好吗?
出示课题
活动二、探究发现
设计意图:了解制作模型所需要的材料与方法,解决本课时的教学重难点。
1、(分小组欣赏精美的学校建筑模型)
看这些模型,都是用什么材料制作的?
纸盒、泡沫、泥、彩纸、塑料、
你还发现了那些制作的材料。(学生谈)
材料的运用原则:
底部重,中间的墙壁坚挺,房顶轻。
2、探究制作方法。
看录像:建筑工人盖房子(快动作的播放)
你能找出制作建筑的顺序吗?地基——墙壁——门、窗——屋顶
(研究小组的模型)
先做什么?
房子的底部
门窗的形状(可以画、贴)
示范:(用纸建筑的学校)(和上节课效果图相符)
装饰方法:(材料)
房屋:
街道:
大门:
想一想还可以用怎样的方法、材料做?(学生说)
课件展示(盒子翻新法)(切割造型法)
说说你想还能设计怎样的学校?
3、你们小组想用什么材料,怎样做?
(小组讨论)
活动三、创作实践
设计意图:创设作业情境,让学生带着激情与兴趣创作。
现在让我们乘时光列车回到10年前,看看同学们是什么模样,出示课件,你们认出这几个天真可爱的孩子是谁吗?
回忆,美好而甜蜜。展望,让人充满幸福的企盼。20年以后,据专家们推测,随着科学技术的发展,人们的学习、生活都将发生重大的变化,20年以后你们相聚在一起,又是怎样的情景呢?20年以后的学校会发生怎样的变化?二十年后,我们的学校正要改建成一座现代化的教学名校,向社会各界征集设计模型,亲爱的同学们快来参加吧。
作业要求:分小组完成未来学校的建筑模型制作,参加未来的建筑设计大赛。
活动四、欣赏评价
设计意图:
1、在音乐中,每组同学围绕着建筑边走边看,欣赏评价。
2、每组推选一名代表为学校的评审小组成员,听取各个小组的介绍与展示作品,并评出最佳创意、最佳效果等奖项。
数据挖掘
题目:数据挖掘技术在神经根型颈椎病方剂研究中的优势及应用进展
关键词:数据挖掘技术; 神经根型颈椎病; 方剂; 综述;
1 数据挖掘技术简介
数据挖掘技术[1] (Knowledge Discovery in Datebase, KKD) , 是一种新兴的信息处理技术, 它融汇了人工智能、模式别、模糊数学、数据库、数理统计等多种技术方法, 专门用于海量数据的处理, 从大量的、不完全的、有噪声的、模糊的、随机的数据集中, 提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识, 其目的是发现规律而不是验证假设。数据挖掘技术主要适用于庞大的数据库的研究, 其特点在于:基于数据分析方法角度的分类, 其本质属于观察性研究, 数据来源于日常诊疗工作
2 数据挖掘术在神经根型颈椎病治方研究中的优势
中医对于神经根型颈椎病的治疗准则为辨证论治, 从古至今神经根型颈椎病的中医证型有很多, 其治方是集中医之理、法、方、药为一体的数据集合, 具有以“方-药-证”为核心的多维结构。方剂配伍本质上表现为方与方、方与药、药与药、药与剂量, 以及方药与证、病、症交叉错综的关联与对应[5], 而中医方剂讲究君臣佐使的配伍, 药物有升降沉浮, 四气五味及归经之别, 对于神经根型颈椎病的治疗, 治方中药物的种类、炮制方法、用量、用法等都是千变万化的, 而这些海量、模糊、看似随机的药物背后隐藏着对临床有用的信息和规律, 但这些大数据是无法在可承受的时间范围内可用常规软件工具进行捕捉、管理和处理的, 是需要一个新处理模式才能具有更强的决策力、洞察力和流程优化能力, 而数据挖掘技术有可能从这些海量的的数据中发现新知识, 揭示背后隐藏的关系和规则, 并且对未知的情况进行预测[6]。再者, 中医辨治充满非线性思维, “方-药-证”间的多层关联、序列组合、集群对应, 形成了整体论的思维方式和原则, 而数据挖掘技术数据挖掘在技术线路上与传统数据处理方法不同在于其能对数据库内的数据以线性和非线性方式解析, 尤善处理模糊的、非量化的数据。例如赵睿曦等[7]在研究张氏骨伤治疗腰椎间盘突出症的用药规律时, 选取了100张治方, 因该病病因病机复杂, 证候不一, 骨伤名师张玉柱先生对该病的治则治法、药物使用是不同的。因此他们利用Excel建立方证数据库, 采用SPPS Clementine12.0软件对这些数据的用药频次、药物关联规则及药物聚类进行分析, 最后总结出张氏骨伤治疗腰椎间盘突出症遵循病从肝治、病从血治、标本兼治的原则, 也归纳出治疗三种不同证型的腰突症的三类自拟方。由此看出数据挖掘技术在方剂研究中的应用对数据背后信息、规律等的挖掘及名家经验的推广具有重大意义, 因此数据挖掘技术在神经根型颈椎病的治方研究中也同样发挥着巨大的作用。
3 数据挖掘技术在神经根型颈椎治方中的应用进展
神经根型颈椎病在所有颈椎病中最常见, 约占50%~60%[8], 医家对其治方的研究也是不计其数。近年来数据挖掘技术也被运用于其治方研究中, 笔者通过万方、中国知网等总共检索出以下几篇文献, 虽数量不多但其优势明显。刘向前等[9]在挖掘古方治疗神经根型颈椎病的用药规律时, 通过检索《中华医典》并从中筛选以治疗颈项肩臂痛为主的古方219首并建立数据库, 对不同证治古方的用药类别、总味数、单味药使用频数及药对 (组) 出现频数进行统计, 总结出风寒湿痹证、痰湿阻痹证、寒湿阻滞证、正虚不足证的用药特点, 得出解表药、祛风湿药、活血化瘀药、补虚药是治疗颈项肩臂痛古方组成的主要药物。古为今用, 该研究对于现代医家在治疗该病中有很好的借鉴和参考意义。齐兵献等[10]检索CNKI (1980-2009年) 相关文献中治疗神经根型颈椎病的方剂建立数据库, 采用SPSS11.5统计软件这些治方常用药物使用频次频率、性味频率、归经频率分析比较, 治疗神经根型颈椎病的中药共计99味, 使用频次479味次;所用药物种类依次以补益药、活血化瘀药、祛风湿药运用最多, 其中药味以辛、苦为主, 药性以温、寒为主, 归经以肝、脾、心为主, 而本病以肝肾亏虚, 气血瘀滞为主, 临床以补益药、活血化瘀药、祛风湿药等中药运用最多。这对于医家治疗该病选用药物的性味、归经等具有指导意义。陈元川等[11]检索2004年1月至2013年3月发表的以单纯口服中药治疗神经根型颈椎病的有关文献, 对其中的方剂和药物进行统计、归类、分析, 最终纳入32首方剂, 涉及111味中药, 补气药、发散风寒药、活血止痛药、补血药等使用频次较高;葛根、白芍、黄芪、当归、桂枝等药物使用频次较高, 证实与古方桂枝加葛根汤主药相同, 且该方扶阳解表的治法与该研究得出的扶正祛邪的结果相吻合, 同时也证实石氏伤科强调治伤科病当“以气为主, 以血为先”等正确性。所以大数据背后的规律和关系在很多方面古今是一致的, 同时数据依据的支持也为现代神经根型颈椎病治疗提供有力的保障。谢辉等[12]收集2009至2014年10月3日的166张治疗神经根型颈椎病的治方建立数据库, 采用关联规则算法、复杂系统熵聚类等无监督数据挖掘方法, 利用中医传承辅助平台 (TCMISS) 软件分析处方中各种药物的使用频次、药物之间的关联规则、核心药物组合和新处方, 从中挖掘出治疗该病中医中的常用药物、药对, 阐明了治疗该病以解肌散寒药、补气活血药、祛风胜湿药和温经通络药为主, 治法主要包括解肌舒筋、益气活血和补益肝肾, 这一方面很清晰明了地展示了药物使用频率、药物之间的联系, 证实其与很多古代经典中治疗神经根型颈椎病的治则、治法及用药规律是吻合的, 是临床用药的积累和升华, 可有效地指导临床并提高疗效;另一方面也为中药新药的创制提供处方来源, 指导新药研发[13]。
4 小结
数据挖掘技术作为一种新型的研究技术, 在神经根型颈椎病的治方研究中的运用相对于其他领域是偏少的, 并且基本上是研究文献资料上出现的治方, 在对名老中医个人治疗经验及用药规律的总结是缺乏的, 因此研究范围广而缺乏针对性, 同时使用该技术的相关软件种类往往是单一的。现在研究者在研究中医方剂时往往采用传统的研究方法, 这就导致在大数据的研究中耗时、耗力甚则无能为力, 同样也难以精准地提取大数据背后的隐藏的潜在关系和规则及缺乏对未知情况的预测。产生这样的现状, 一方面是很多研究者尚未清楚该技术在方剂研究中的优势所在, 思维模式尚未更新;另一方面是很多研究者尚未清楚该技术的操作技能及软件种类及其应用范围。故以后应向更多研究者普及该技术的软件种类、其中的优势及操作技能, 让该技术在临床中使用更广, 产生更大的效益。
参考文献
[1]舒正渝.浅谈数据挖掘技术及应用[J].中国西部科技, 2010, 9 (5) :38-39.
[2]曹毅, 季聪华.临床科研设计与分析[M].杭州:浙江科学技术出版社, 2015:189.
[3]王静, 崔蒙.数据挖掘技术在中医方剂学研究中的应用[J].中国中医药信息杂志, 2008, 15 (3) :103-104.
[4]陈丈伟.数据仓库与数据挖掘[M].北京:清华大学出版社, 2006:5.
[5]杨玉珠.数据挖掘技术综述与应用[J].河南科技, 2014, 10 (19) :21.
[6]余侃侃.数据挖掘技术在方剂配伍中的研究现状及研究方法[J].中国医药指南, 2008, 6 (24) :310-312.
[7]赵睿曦.方证数据挖掘分析张氏骨伤对腰椎间盘突出症的辨证用药规律[J].陕西中医药大学学报, 2016, 39 (6) :44-46.
[8]李曙明, 尹战海, 王莹.神经根型颈椎病的影像学特点和分型[J].中国矫形外科杂志, 2013, 21 (1) :7-11.
[9]刘向前, 陈民, 黄广平等.颈项肩臂痛内治古方常用药物的统计分析[J].中华中医药学刊, 2012, 30 (9) :42-44.
[10]齐兵献, 樊成虎, 李兆和.神经根型颈椎病中医用药规律的文献研究[J].河南中医, 2012, 32 (4) :518-519.
[11]陈元川, 王翔, 庞坚, 等.单纯口服中药治疗神经根型颈椎病用药分析[J].上海中医药杂志, 2014, 48 (6) :78-80.
[12]谢辉, 刘军, 潘建科, 等.基于数据挖掘方法的神经根型颈椎病用药规律研究[J].世界中西医结合杂志, 2015, 10 (6) :849-852.
[13]唐仕欢, 杨洪军.中医组方用药规律研究进展述评[J].中国实验方剂学杂志, 2013 (5) :359-363.
数据挖掘论文二:
题目:大数据挖掘在智游应用中的探究
摘要:大数据和智游都是当下的热点, 没有大数据的智游无从谈“智慧”, 数据挖掘是大数据应用于智游的核心, 文章探究了在智游应用中, 目前大数据挖掘存在的几个问题。
关键词:大数据; 智游; 数据挖掘;
1引言
随着人民生活水平的进一步提高, 旅游消费的需求进一步上升, 在云计算、互联网、物联网以及移动智能终端等信息通讯技术的飞速发展下, 智游应运而生。大数据作为当下的热点已经成了智游发展的有力支撑, 没有大数据提供的有利信息, 智游无法变得“智慧”。
2大数据与智游
旅游业是信息密、综合性强、信息依存度高的产业[1], 这让其与大数据自然产生了交汇。2010年, 江苏省镇江市首先提出“智游”的概念, 虽然至今国内外对于智游还没有一个统一的学术定义, 但在与大数据相关的描述中, 有学者从大数据挖掘在智游中的作用出发, 把智游描述为:通过充分收集和管理所有类型和来源的旅游数据, 并深入挖掘这些数据的潜在重要价值信息, 然后利用这些信息为相关部门或对象提供服务[2]。这一定义充分肯定了在发展智游中, 大数据挖掘所起的至关重要的作用, 指出了在智游的过程中, 数据的收集、储存、管理都是为数据挖掘服务, 智游最终所需要的是利用挖掘所得的有用信息。
3大数据挖掘在智游中存在的问题
2011年, 我国提出用十年时间基本实现智游的目标[3], 过去几年, 国家旅游局的相关动作均为了实现这一目标。但是, 在借助大数据推动智游的可持续性发展中, 大数据所产生的价值却亟待提高, 原因之一就是在收集、储存了大量数据后, 对它们深入挖掘不够, 没有发掘出数据更多的价值。
3.1 信息化建设
智游的发展离不开移动网络、物联网、云平台。随着大数据的不断发展, 国内许多景区已经实现Wi-Fi覆盖, 部分景区也已实现人与人、人与物、人与景点之间的实时互动, 多省市已建有旅游产业监测平台或旅游大数据中心以及数据可视化平台, 从中进行数据统计、行为分析、监控预警、服务质量监督等。通过这些平台, 已基本能掌握跟游客和景点相关的数据, 可以实现更好旅游监控、产业宏观监控, 对该地的旅游管理和推广都能发挥重要作用。
但从智慧化的发展来看, 我国的信息化建设还需加强。虽然通讯网络已基本能保证, 但是大部分景区还无法实现对景区全面、透彻、及时的感知, 更为困难的是对平台的建设。在数据共享平台的建设上, 除了必备的硬件设施, 大数据实验平台还涉及大量部门, 如政府管理部门、气象部门、交通、电子商务、旅行社、旅游网站等。如此多的部门相关联, 要想建立一个完整全面的大数据实验平台, 难度可想而知。
3.2 大数据挖掘方法
大数据时代缺的不是数据, 而是方法。大数据在旅游行业的应用前景非常广阔, 但是面对大量的数据, 不懂如何收集有用的数据、不懂如何对数据进行挖掘和利用, 那么“大数据”犹如矿山之中的废石。旅游行业所涉及的结构化与非结构化数据, 通过云计算技术, 对数据的收集、存储都较为容易, 但对数据的挖掘分析则还在不断探索中。大数据的挖掘常用的方法有关联分析, 相似度分析, 距离分析, 聚类分析等等, 这些方法从不同的角度对数据进行挖掘。其中, 相关性分析方法通过关联多个数据来源, 挖掘数据价值。但针对旅游数据, 采用这些方法挖掘数据的价值信息, 难度也很大, 因为旅游数据中冗余数据很多, 数据存在形式很复杂。在旅游非结构化数据中, 一张图片、一个天气变化、一次舆情评价等都将会对游客的旅行计划带来影响。对这些数据完全挖掘分析, 对游客“行前、行中、行后”大数据的实时性挖掘都是很大的挑战。
3.3 数据安全
2017年, 数据安全事件屡见不鲜, 伴着大数据而来的数据安全问题日益凸显出来。在大数据时代, 无处不在的数据收集技术使我们的个人信息在所关联的数据中心留下痕迹, 如何保证这些信息被合法合理使用, 让数据“可用不可见”[4], 这是亟待解决的问题。同时, 在大数据资源的开放性和共享性下, 个人隐私和公民权益受到严重威胁。这一矛盾的存在使数据共享程度与数据挖掘程度成反比。此外, 经过大数据技术的分析、挖掘, 个人隐私更易被发现和暴露, 从而可能引发一系列社会问题。
大数据背景下的旅游数据当然也避免不了数据的安全问题。如果游客“吃、住、行、游、娱、购”的数据被放入数据库, 被完全共享、挖掘、分析, 那游客的人身财产安全将会受到严重影响, 最终降低旅游体验。所以, 数据的安全管理是进行大数据挖掘的前提。
3.4 大数据人才
大数据背景下的智游离不开人才的创新活动及技术支持, 然而与专业相衔接的大数据人才培养未能及时跟上行业需求, 加之创新型人才的外流, 以及数据统计未来3~5年大数据行业将面临全球性的人才荒, 国内智游的构建还缺乏大量人才。
4解决思路
在信息化建设上, 加大政府投入, 加强基础设施建设, 整合结构化数据, 抓取非结构化数据, 打通各数据壁垒, 建设旅游大数据实验平台;在挖掘方法上, 对旅游大数据实时性数据的挖掘应该被放在重要位置;在数据安全上, 从加强大数据安全立法、监管执法及强化技术手段建设等几个方面着手, 提升大数据环境下数据安全保护水平。加强人才的培养与引进, 加强产学研合作, 培养智游大数据人才。
参考文献
[1]翁凯.大数据在智游中的应用研究[J].信息技术, 2015, 24:86-87.
[2]梁昌勇, 马银超, 路彩虹.大数据挖掘, 智游的核心[J].开发研究, 2015, 5 (180) :134-139.
[3]张建涛, 王洋, 刘力刚.大数据背景下智游应用模型体系构建[J].企业经济, 2017, 5 (441) :116-123.
[4]王竹欣, 陈湉.保障大数据, 从哪里入手?[N].人民邮电究, 2017-11-30.
数据挖掘论文三:
题目:档案信息管理系统中的计算机数据挖掘技术探讨
摘要:伴随着计算机技术的不断进步和发展, 数据挖掘技术成为数据处理工作中的重点技术, 能借助相关算法搜索相关信息, 在节省人力资本的同时, 提高数据检索的实际效率, 基于此, 被广泛应用在数据密集型行业中。笔者简要分析了计算机数据挖掘技术, 并集中阐释了档案信息管理系统计算机数据仓库的建立和技术实现过程, 以供参考。
关键词:档案信息管理系统; 计算机; 数据挖掘技术; 1 数据挖掘技术概述
数据挖掘技术就是指在大量随机数据中提取隐含信息, 并且将其整合后应用在知识处理体系的技术过程。若是从技术层面判定数据挖掘技术, 则需要将其划分在商业数据处理技术中, 整合商业数据提取和转化机制, 并且建构更加系统化的分析模型和处理机制, 从根本上优化商业决策。借助数据挖掘技术能建构完整的数据仓库, 满足集成性、时变性以及非易失性等需求, 整和数据处理和冗余参数, 确保技术框架结构的完整性。
目前, 数据挖掘技术常用的工具, 如SAS企业的Enterprise Miner、IBM企业的Intellient Miner以及SPSS企业的Clementine等应用都十分广泛。企业在实际工作过程中, 往往会利用数据源和数据预处理工具进行数据定型和更新管理, 并且应用聚类分析模块、决策树分析模块以及关联分析算法等, 借助数据挖掘技术对相关数据进行处理。
2 档案信息管理系统计算机数据仓库的建立
2.1 客户需求单元
为了充分发挥档案信息管理系统的优势, 要结合客户的实际需求建立完整的处理框架体系。在数据库体系建立中, 要适应迭代式处理特征, 并且从用户需求出发整合数据模型, 保证其建立过程能按照整体规划有序进行, 且能按照目标和分析框架参数完成操作。首先, 要确立基础性的数据仓库对象, 由于是档案信息管理, 因此, 要集中划分档案数据分析的主题, 并且有效录入档案信息, 确保满足档案的数据分析需求。其次, 要对日常工作中的用户数据进行集中的挖掘处理, 从根本上提高数据仓库分析的完整性。
(1) 确定数据仓库的基础性用户, 其中, 主要包括档案工作人员和使用人员, 结合不同人员的工作需求建立相应的数据仓库。
(2) 档案工作要利用数据分析和档案用户特征分析进行分类描述。
(3) 确定档案的基础性分类主题, 一般而言, 要将文书档案归档情况、卷数等基础性信息作为分类依据。
2.2 数据库设计单元
在设计过程中, 要针对不同维度建立相应的参数体系和组成结构, 并且有效整合组成事实表的主键项目, 建立框架结构。
第一, 建立事实表。事实表是数据模型的核心单元, 主要是记录相关业务和统计数据的表, 能整合数据仓库中的信息单元, 并且提升多维空间处理效果, 确保数据储存过程切实有效。 (1) 档案管理中文书档案目录卷数事实表:事实表主键, 字段类型Int, 字段为Id;文书归档年份, 字段类型Int, 字段为Gdyear_key;文书归档类型, 字段类型Int, 字段为Ajtm_key;文书归档单位, 字段类型Int, 字段为Gddw_key;文书档案生成年份, 字段类型Int, 字段为Ajscsj_key, 以及文书档案包括的文件数目。 (2) 档案管理中文书档案卷数事实表:事实表主键, 字段类型Int, 字段为Id;文书归档利用日期, 字段类型Int, 字段为Date_key;文书归档利用单位, 字段类型Int, 字段为Dw_key;文书归档利用类别, 字段类型Int, 字段为Dalb_key;文书归档利用年份, 字段类型Int, 字段为Dayear_key等[1]。
第二, 建立维度表, 在实际数据仓库建立和运维工作中, 提高数据管理效果和水平, 确保建立循环和反馈的系统框架体系, 并且处理增长过程和完善过程, 有效实现数据库模型设计以及相关维护操作。首先, 要对模式的基础性维度进行分析并且制作相应的表, 主要包括档案年度维表、利用方式维表等。其次, 要建构数据库星型模型体系。最后, 要集中判定数据库工具, 保证数据库平台在客户管理工作方面具备一定的优势, 集中制订商务智能解决方案, 保证集成环境的稳定性和数据仓库建模的效果, 真正提高数据抽取以及转换工作的实际水平。需要注意的是, 在全面整合和分析处理数据的过程中, 要分离文书档案中的数据, 相关操作如下:
from dag gd temp//删除临时表中的数据
Ch count=dag 1.importfile (dbo.u wswj) //将文书目录中数据导出到数据窗口
Dag 1.() //将数据窗口中的数据保存到临时表
相关技术人员要对数据进行有效处理, 以保证相关数据合并操作、连接操作以及条件性拆分操作等都能按照数据预处理管理要求合理化进行, 从根本上维护数据处理效果。
2.3 多维数据模型建立单元
在档案多维数据模型建立的过程中, 相关技术人员要判定联机分析处理项目和数据挖掘方案, 整合信息系统中的数据源、数据视图、维度参数以及属性参数等, 保证具体单元能发挥其实际作用, 并且真正发挥档案维表的稳定性、安全性优势。
第一, 档案事实表中的数据稳定, 事实表是加载和处理档案数据的基本模块, 按照档案目录数据表和档案利用情况表分析和判定其类别和归档时间, 从而提高数据独立分析水平。一方面, 能追加有效的数据, 保证数据仓库信息的基本质量, 也能追加时间判定标准, 能在实际操作中减少扫描整个表浪费的时间, 从根本上提高实际效率。另一方面, 能删除数据, 实现数据更新, 检索相关关键词即可。并且也能同时修改数据, 维护档案撤出和档案追加的动态化处理效果。
第二, 档案维表的安全性。在维表管理工作中, 档案参数和数据的安全稳定性十分关键, 由于其不会随着时间的推移出现变化, 因此, 要对其进行合理的处理和协调。维表本身的存储空间较小, 尽管结构发生变化的概率不大, 但仍会对代表的对象产生影响, 这就会使得数据出现动态的变化。对于这种改变, 需要借助新维生成的方式进行处理, 从而保证不同维表能有效连接, 整合正确数据的同时, 也能对事实表外键进行分析[2]。
3 档案信息管理系统计算机数据仓库的实现
3.1 描述需求
随着互联网技术和数据库技术不断进步, 要提高档案数字化水平以及完善信息化整合机制, 加快数据库管控体系的更新, 确保设备存储以及网络环境一体化水平能满足需求, 尤其是在档案资源重组和预测项目中, 只有从根本上落实数据挖掘体系, 才能为后续信息档案管理项目升级奠定坚实基础。另外, 在数据表和文书等基础性数据结构模型建立的基础上, 要按照规律制定具有个性化的主动性服务机制。
3.2 关联计算
在实际档案分析工作开展过程中, 关联算法描述十分关键, 能对某些行为特征进行统筹整合, 从而制定分析决策。在进行关联规则强度分析时, 要结合支持度和置信度等系统化数据进行综合衡量。例如, 档案数据库中有A和B两个基础项集合, 支持度为P (A∪B) , 则直接表述了A和B在同一时间出现的基础性概率。若是两者出现的概率并不大, 则证明两者之间的关联度较低。若是两者出现的概率较大, 则说明两者的关联度较高。另外, 在分析置信度时, 利用Confidence (A→B) = (A|B) , 也能有效判定两者之间的关系。在出现置信度A的情况下, B的出现概率则是整体参数关系的关键, 若是置信度的数值达到100%, 则直接证明A和B能同一时间出现。
3.3 神经网络算法
除了要对档案的实际内容进行数据分析和数据库建构, 也要对其利用情况进行判定, 目前较为常见的利用率分析算法就是神经网络算法, 其借助数据分类系统判定和分析数据对象。值得注意的是, 在分类技术结构中, 要结合训练数据集判定分类模型数据挖掘结构。神经网络算法类似于人脑系统的运行结构, 能建立完整的信息处理单元, 并且能够整合非线性交换结构, 确保能凭借历史数据对计算模型和分类体系展开深度分析[3]。
3.4 实现多元化应用
在档案管理工作中应用计算机数据挖掘技术, 能对档案分类管理予以分析, 保证信息需求分类总结工作的完整程度。尤其是档案使用者在对档案具体特征进行差异化分析的过程中, 能结合不同的元素对具体问题展开深度调研。一方面, 计算机数据挖掘技术借助决策树算法处理规则化的档案分析机制。在差异化训练体系中, 要对数据集合中的数据进行系统化分析以及处理, 确保构建要求能适应数据挖掘的基本结构[4]。例如, 档案管理人员借助数据挖掘技术能整合档案使用人员长期浏览与关注的信息, 并且能集中收集和汇总间隔时间、信息查询停留时间等, 从而建构完整的数据分析机制, 有效向其推送或者是提供便捷化查询服务, 保证档案管理数字化水平的提高。另一方面, 在档案收集管理工作中应用数据挖掘技术, 主要是对数据信息进行分析, 结合基本结果建立概念模型, 保证模型以及测试样本之间的比较参数符合标准, 从而真正建立更加系统化的分类框架体系。
4 结语
总而言之, 在档案管理工作中应用数据挖掘技术, 能在准确判定用户需求的同时, 维护数据处理效果, 并且减少档案数字化的成本, 为后续工作的进一步优化奠定坚实基础。并且, 数据库的建立, 也能节省经费和设备维护成本, 真正实现数字化全面发展的目标, 促进档案信息管理工作的长效进步。
参考文献
[1]曾雪峰.计算机数据挖掘技术开发及其在档案信息管理中的运用研究[J].科技创新与应用, 2016 (9) :285.
[2]王晓燕.数据挖掘技术在档案信息管理中的应用[J].兰台世界, 2014 (23) :25-26.
[3]韩吉义.基于数据挖掘技术的高校图书馆档案信息管理平台的构筑[J].山西档案, 2015 (6) :61-63.
[4]哈立原.基于数据挖掘技术的高校图书馆档案信息管理平台构建[J].山西档案, 2016 (5) :105-107.
数据挖掘论文四: 题目:机器学习算法在数据挖掘中的应用
摘要:随着科学技术的快速发展, 各种新鲜的事物和理念得到了广泛的应用。其中机器学习算法就是一则典型案例——作为一种新型的算法, 其广泛应用于各行各业之中。本篇论文旨在探讨机器学习算法在数据挖掘中的具体应用, 我们利用庞大的移动终端数据网络, 加强了基于GSM网络的户外终端定位, 从而提出了3个阶段的定位算法, 有效提高了定位的精准度和速度。
关键词:学习算法; GSM网络; 定位; 数据;
移动终端定位技术由来已久, 其主要是利用各种科学技术手段定位移动物体的精准位置以及高度。目前, 移动终端定位技术主要应用于军事定位、紧急救援、网络优化、地图导航等多个现代化的领域, 由于移动终端定位技术可以提供精准的位置服务信息, 所以其在市场上还是有较大的需求的, 这也为移动终端定位技术的优化和发展, 提供了推动力。随着通信网络普及, 移动终端定位技术的发展也得到了一些帮助, 使得其定位的精准度和速度都得到了全面的优化和提升。同时, 传统的定位方法结合先进的算法来进行精准定位, 目前依旧还是有较大的进步空间。在工作中我选取机器学习算法结合数据挖掘技术对传统定位技术加以改进, 取得了不错的效果, 但也遇到了许多问题, 例如:使用机器学习算法来进行精准定位暂时无法满足更大的区域要求, 还有想要利用较低的设备成本, 实现得到更多的精准定位的要求比较困难。所以本文对机器学习算法进行了深入的研究, 希望能够帮助其更快速的定位、更精准的定位, 满足市场的需要。
1 数据挖掘概述
数据挖掘又名数据探勘、信息挖掘。它是数据库知识筛选中非常重要的一步。数据挖掘其实指的就是在大量的数据中通过算法找到有用信息的行为。一般情况下, 数据挖掘都会和计算机科学紧密联系在一起, 通过统计集合、在线剖析、检索筛选、机器学习、参数识别等多种方法来实现最初的目标。统计算法和机器学习算法是数据挖掘算法里面应用得比较广泛的两类。统计算法依赖于概率分析, 然后进行相关性判断, 由此来执行运算。
而机器学习算法主要依靠人工智能科技, 通过大量的样本收集、学习和训练, 可以自动匹配运算所需的相关参数及模式。它综合了数学、物理学、自动化和计算机科学等多种学习理论, 虽然能够应用的领域和目标各不相同, 但是这些算法都可以被独立使用运算, 当然也可以相互帮助, 综合应用, 可以说是一种可以“因时而变”、“因事而变”的算法。在机器学习算法的领域, 人工神经网络是比较重要和常见的一种。因为它的优秀的数据处理和演练、学习的能力较强。
而且对于问题数据还可以进行精准的识别与处理分析, 所以应用的频次更多。人工神经网络依赖于多种多样的建模模型来进行工作, 由此来满足不同的数据需求。综合来看, 人工神经网络的建模, 它的精准度比较高, 综合表述能力优秀, 而且在应用的过程中, 不需要依赖专家的辅助力量, 虽然仍有缺陷, 比如在训练数据的时候耗时较多, 知识的理解能力还没有达到智能化的标准, 但是, 相对于其他方式而言, 人工神经网络的优势依旧是比较突出的。
2 以机器学习算法为基础的GSM网络定位
2.1 定位问题的建模
建模的过程主要是以支持向量机定位方式作为基础, 把定位的位置栅格化, 面积较小的栅格位置就是独立的一种类别, 在定位的位置内, 我们收集数目庞大的终端测量数据, 然后利用计算机对测量报告进行分析处理, 测量栅格的距离度量和精准度, 然后对移动终端栅格进行预估判断, 最终利用机器学习进行分析求解。
2.2 采集数据和预处理
本次研究, 我们采用的模型对象是我国某一个周边长达10千米的二线城市。在该城市区域内, 我们测量了四个不同时间段内的数据, 为了保证机器学习算法定位的精准性和有效性, 我们把其中的三批数据作为训练数据, 最后一组数据作为定位数据, 然后把定位数据周边十米内的前三组训练数据的相关信息进行清除。一旦确定某一待定位数据, 就要在不同的时间内进行测量, 按照测量出的数据信息的经纬度和平均值, 再进行换算, 最终, 得到真实的数据量, 提升定位的速度以及有效程度。
2.3 以基站的经纬度为基础的初步定位
用机器学习算法来进行移动终端定位, 其复杂性也是比较大的, 一旦区域面积增加, 那么模型和分类也相应增加, 而且更加复杂, 所以, 利用机器学习算法来进行移动终端定位的过程, 会随着定位区域面积的增大, 而耗费更多的时间。利用基站的经纬度作为基础来进行早期的定位, 则需要以下几个步骤:要将边长为十千米的正方形分割成一千米的小栅格, 如果想要定位数据集内的相关信息, 就要选择对边长是一千米的小栅格进行计算, 而如果是想要获得边长一千米的大栅格, 就要对边长是一千米的栅格精心计算。
2.4 以向量机为基础的二次定位
在完成初步定位工作后, 要确定一个边长为两千米的正方形, 由于第一级支持向量机定位的区域是四百米, 定位输出的是以一百米栅格作为中心点的经纬度数据信息, 相对于一级向量机的定位而言, 二级向量机在定位计算的时候难度是较低的`, 更加简便。后期的预算主要依赖决策函数计算和样本向量机计算。随着栅格的变小, 定位的精准度将越来越高, 而由于增加分类的问题数量是上升的, 所以, 定位的复杂度也是相对增加的。
2.5 以K-近邻法为基础的三次定位
第一步要做的就是选定需要定位的区域面积, 在二次输出之后, 确定其经纬度, 然后依赖经纬度来确定边长面积, 这些都是进行区域定位的基础性工作, 紧接着就是定位模型的训练。以K-近邻法为基础的三次定位需要的是综合训练信息数据, 对于这些信息数据, 要以大小为选择依据进行筛选和合并, 这样就能够减少计算的重复性。当然了, 选择的区域面积越大, 其定位的速度和精准性也就越低。
3 结语
近年来, 随着我国科学技术的不断发展和进步, 数据挖掘技术愈加重要。根据上面的研究, 我们证明了, 在数据挖掘的过程中, 应用机器学习算法具有举足轻重的作用。作为一门多领域互相交叉的知识学科, 它能够帮助我们提升定位的精准度以及定位速度, 可以被广泛的应用于各行各业。所以, 对于机器学习算法, 相关人员要加以重视, 不断的进行改良以及改善, 切实的发挥其有利的方面, 将其广泛应用于智能定位的各个领域, 帮助我们解决关于户外移动终端的定位的问题。
参考文献
[1]陈小燕, CHENXiaoyan.机器学习算法在数据挖掘中的应用[J].现代电子技术, 2015, v.38;No.451 (20) :11-14.
[2]李运.机器学习算法在数据挖掘中的应用[D].北京邮电大学, 2014.
[3]莫雪峰.机器学习算法在数据挖掘中的应用[J].科教文汇, 2016 (07) :175-178.
数据挖掘论文五: 题目:软件工程数据挖掘研究进展
摘要:数据挖掘是指在大数据中开发出有价值信息数据的过程。计算机技术的不断进步, 通过人工的方式进行软件的开发与维护难度较大。而数据挖掘能够有效的提升软件开发的效率, 并能够在大量的数据中获得有效的数据。文章主要探究软件工程中数据挖掘技术的任务和存在的问题, 并重点论述软件开发过程中出现的问题和相关的解决措施。
关键词:软件工程; 数据挖掘; 解决措施;
在软件开发过程中, 为了能够获得更加准确的数据资源, 软件的研发人员就需要搜集和整理数据。但是在大数据时代, 人工获取数据信息的难度极大。当前, 软件工程中运用最多的就是数据挖掘技术。软件挖掘技术是传统数据挖掘技术在软件工程方向的其中一部分。但是它具有自身的特征, 体现在以下三个方面:
(1) 在软件工程中, 对有效数据的挖掘和处理;
(2) 挖掘数据算法的选择问题;
(3) 软件的开发者该如何选择数据。
1 在软件工程中数据挖掘的主要任务
在数据挖掘技术中, 软件工程数据挖掘是其中之一, 其挖掘的过程与传统数据的挖掘无异。通常包括三个阶段:第一阶段, 数据的预处理;第二阶段, 数据的挖掘;第三阶段, 对结果的评估。第一阶段的主要任务有对数据的分类、对异常数据的检测以及整理和提取复杂信息等。虽然软件工程的数据挖掘和传统的数据挖掘存在相似性, 但是也存在一定的差异, 其主要体现在以下三个方面:
1.1 软件工程的数据更加复杂
软件工程数据主要包括两种, 一种是软件报告, 另外一种是软件的版本信息。当然还包括一些软件代码和注释在内的非结构化数据信息。这两种软件工程数据的算法是不同的, 但是两者之间又有一定的联系, 这也是软件工程数据挖掘复杂性的重要原因。
1.2 数据分析结果的表现更加特殊
传统的数据挖掘结果可以通过很多种结果展示出来, 最常见的有报表和文字的方式。但是对于软件工程的数据挖掘来讲, 它最主要的职能是给软件的研发人员提供更加精准的案例, 软件漏洞的实际定位以及设计构造方面的信息, 同时也包括数据挖掘的统计结果。所以这就要求软件工程的数据挖掘需要更加先进的结果提交方式和途径。
1.3 对数据挖掘结果难以达成一致的评价
我国传统的数据挖掘已经初步形成统一的评价标准, 而且评价体系相对成熟。但是软件工程的数据挖掘过程中, 研发人员需要更多复杂而又具体的数据信息, 所以数据的表示方法也相对多样化, 数据之间难以进行对比, 所以也就难以达成一致的评价标准和结果。不难看出, 软件工程数据挖掘的关键在于对挖掘数据的预处理和对数据结果的表示方法。
2 软件工程研发阶段出现的问题和解决措施
软件在研发阶段主要的任务是对软件运行程序的编写。以下是软件在编码和结果的提交过程中出现的问题和相应的解决措施。
2.1 对软件代码的编写过程
该过程需要软件的研发人员能够对自己需要编写的代码结构与功能有充分的了解和认识。并能够依据自身掌握的信息, 在数据库中搜集到可以使用的数据信息。通常情况下, 编程需要的数据信息可以分为三个方面:
(1) 软件的研发人员能够在已经存在的代码中搜集可以重新使用的代码;
(2) 软件的研发人员可以搜寻可以重用的静态规则, 比如继承关系等。
(3) 软件的开发人员搜寻可以重用的动态规则。
包括软件的接口调用顺序等。在寻找以上信息的过程中, 通常是利用软件的帮助文档、寻求外界帮助和搜集代码的方式实现, 但是以上方式在搜集信息过程中往往会遇到较多的问题, 比如:帮助文档的准确性较低, 同时不够完整, 可利用的重用信息不多等。
2.2 对软件代码的重用
在对软件代码重用过程中, 最关键的问题是软件的研发人员必须掌握需要的类或方法, 并能够通过与之有联系的代码实现代码的重用。但是这种方式哦足迹信息将会耗费工作人员大量的精力。而通过关键词在代码库中搜集可重用的软件代码, 同时按照代码的相关度对搜集到的代码进行排序, 该过程使用的原理就是可重用的代码必然模式基本类似, 最终所展现出来的搜索结果是以上下文结构的方式展现的。比如:类与类之间的联系。其实现的具体流程如下:
(1) 软件的开发人员创建同时具备例程和上下文架构的代码库;
(2) 软件的研发人员能够向代码库提供类的相关信息, 然后对反馈的结果进行评估, 创建新型的代码库。
(3) 未来的研发人员在搜集过程中能够按照评估结果的高低排序, 便于查询, 极大地缩减工作人员的任务量, 提升其工作效率。
2.3 对动态规则的重用
软件工程领域内对动态规则重用的研究已经相对成熟, 通过在编译器内安装特定插件的方式检验代码是否为动态规则最适用的, 并能够将不适合的规则反馈给软件的研发人员。其操作流程为:
(1) 软件的研发人员能够规定动态规则的顺序, 主要表现在:使用某一函数是不能够调用其他的函数。
(2) 实现对相关数据的保存, 可以通过队列等简单的数据结构完成。在利用编译拓展中检测其中的顺序。
(3) 能够将错误的信息反馈给软件的研发人员。
3 结束语
在软件工程的数据挖掘过程中, 数据挖掘的概念才逐步被定义, 但是所需要挖掘的数据是已经存在的。数据挖掘技术在软件工程中的运用能够降低研发人员的工作量, 同时软件工程与数据挖掘的结合是计算机技术必然的发展方向。从数据挖掘的过程来讲, 在其整个实施过程和周期中都包括软件工程。而对数据挖掘的技术手段来讲, 它在软件工程中的运用更加普遍。在对数据挖掘技术的研究过程中可以发现, 该技术虽然已经获得一定的效果, 但是还有更多未被挖掘的空间, 还需要进一步的研究和发现。
参考文献
[1]王艺蓉.试析面向软件工程数据挖掘的开发测试技术[J].电子技术与软件工程, 2017 (18) :64.
[2]吴彦博.软件工程中数据挖掘技术的运用探索[J].数字通信世界, 2017 (09) :187.
[3]周雨辰.数据挖掘技术在软件工程中的应用研究[J].电脑迷, 2017 (08) :27-28.
[4]刘桂林.分析软件工程中数据挖掘技术的应用方式[J].中国新通信, 2017, 19 (13) :119.



