基于数据挖掘技术的辅助医疗诊断研究

名易软件产品

当前位置：首页>管理咨询>基于数据挖掘技术的辅助医疗诊断研究查询：

基于数据挖掘技术的辅助医疗诊断研究

医疗是工作的核心和实质所在，推进与落实医疗质量管理是减少医疗安全隐患、遏制医患纠纷发生的重要举措。医学科学的特性决定医疗风险必然存在，医疗服务不可能像其他商品生产行业实现零缺陷?，但其中的人为因素是可控和可避免的。以2008年山东省3个地级市的医疗事故鉴定档案的数据统计为例，其中72．66％的事故原因可控或可避免j。医方对病情未做全面考虑，过分依赖经验或辅助检查结果，造成漏诊、误诊或诊断不及时延误治疗；或对某些潜在危险估计不足、医疗记录不完整、不全面甚至出现错误，是影响医疗质量的最直接原因如何避免诊断疏忽及错误，是医疗管理必须考虑的重要问题。在医务人员的诊断过程中，通常以患者的口述或症状表现，辅助以检查结果作为诊断的依据，但诊断的正确程度基本上依赖于医务人员的临床经验及专业素质。对已知症状未能做出正确的诊断，而导致病情延误治疗或恶化是常见的医疗质量缺陷。随着信息技术的发展，记录相关诊断信的载体已逐渐从传统纸本病历转变为电子病历]。如何从电子病历数据库中找出诊断项目与诊断结果之间的关联性，以最简洁有效的几个因素辅助医务人员做出准确判断，减少误诊及疏忽，已成为利用电子病历来提高医疗质量的重要研究课题。

1数据挖掘技术研究现状1。1概述数据挖掘泛指从海量的数据中分析萃取，以探索得到非显然的、未知的、潜在的、可能有用的未知信息为主要目的的复杂活动，最初在1992年由Frawley等人首次提出]。Reinschmidt则认为，数据挖掘是从数据库中提取有效的、有用的、未知的、可理解的、能作为决策依据的信息j。1996年Fayyad等人对流程进一步细化为5个步骤。同年，Brachman与Anand在Fayyad的研究基础上将流程细分为9个步骤。通常来说，在确定研究方向或要解决的问题后，数据挖掘的工作流程为：原始数据资料的搜集；将数据资料分组，转换有意义的信息；在信息中甄选出有用的知识，从而实现数据信息知识的转变。

目前数据挖掘的各种技术已被广泛应用在经营辅助决策、消费行为分析等多个领域。针对特定疾病的诊断与预测也在国内外得到一定的应用，例如以线性判别分析、主成分分析，结合类神经网络以鉴别青光眼；利用多群判别分析，结合血清检验与放射性治疗产生的线性函数，透过ROC曲线分析预测C型肝炎病变为肝硬化的概率。本文提出以数据挖掘技术为基础，结合统计分析与规则推导理论，对电子病历应用数据挖掘以实现医疗诊断辅助的研究。1．2数据预处理1．2．1数据修剪由于数据挖掘通常面对的是数量庞大的数据，为提高知识挖掘效率，通常会对数据进行预处理，有效地简化或修剪数据但不失去原本数据中可能隐含的知识。数据修剪的理论依据主要是删除与预计挖掘结果较不相关，或可能误导挖掘结果的数据，以减少整体的数据量与计算量，并增加挖掘结果的精确度。数据修剪也是数据挖掘技术中一个重要的研究方向，本文中不做深人探讨。针对布尔型(Boolean)的数据项，通常可以直接修剪。针对数值型(Numeric)的数据项，采用相关系数法来做数据修剪，通过衡量两数值变量的线性关系强度及正负偏离的参数，来决定数据是否保留。1．2．2空白数据补齐原始数据中通常会存在一部分被标示为BLANK、NULL的空白数据。为确保所分析数据的完整性，对此类数据必须予以补齐。处理空白数据的方法大致上有以下5种：接忽略：该方法操作简单，但是当空白数据量太多时，数据挖掘结果不具说服力；以手动方式填人数值：该方法过于主观，数据挖掘的结果不具公信力；取同属性数据的平均值：该方法在数据中有离群点存在时，数据挖掘的结果可能不具合理性；利用回归分析或者决策树等方法预测：该方法只能针对出现过的数据进行预测，否则数据挖掘的结果可能会不具精确性；寻找最佳分布配对，并以该分布与其机率密度函数产生随机数值：该方法需先求出分布及机率密度函数，运算过程比较复杂，但预测数据的质量较好。1．3规则推导1．3．1规则推导方法数据分类是数据挖掘工作的重要信息处理步骤，依据所要挖掘知识的目的及数据的性质不同，通常的分类方法有：摘要、分群、回归分析、依赖度模型、关联规则、相似性搜索等。依据决策规则的信息确定性测量理论，对一般不确定性信息H(N)的定义如下：kH(Ⅳ)=一P(n)logP(n)以P(n)为n=8的机率，k为数据集N内数据的数量，针对某个问题提问的可能回答结果的集合为Q={q，q，?q。}时，对8所剩余的不确定性(即平均离散条件信息)的定义如下：qcH(NIQ)=ΣΣP(q)P(nIq)logP(nIg)gql1两者的差值就代表针对某个问题的某个提问能得到的有价值的信息，对某问题的提问就是规则(Rule)，而规则推导则是从数据集中寻找出最佳的、正确的、可了解的分类方法的规则。较常见的规则推导方法有：以C4．5算法为代表的决策树推导，基于自学习演算的类神经网络推导，以及应用互斥原理测算问题不确定性的JMeasure算法。等。1．3．2决策树推导是一种使用树状结构的方法来做分类的推导方法，以节点代表不同的预期推导特征，树枝为推导特征的值，而树叶则是不同的分类类别。决策树的生成方法为：确定一个最佳的特征作为根节点，所有的数据以此根节点为判断根据，进行分类，分类在每一个分支的数据再选出最佳的特征作为根节点，再进行分类，形成一棵子树，如此的过程一直重复，直到在一个分支内的所有数据都属于同一个类别，推导过程结束。1．3．3类神经网络推导是一种并行计算系统，其原理为模仿生物神经网络，将整个网络大致分为3个部分：神经元(又称处理单元，ProcessingEle．ment)、层(Layer)、网络(Network)。多个相同作用的处理单元可集合形成一个层，多个层进行堆栈集合，就成为了网络。倒传递类神经网络是目前类神经网络模式中具有代表性，应用较广泛的类神经网络之一，对于每一条输入的数据都有一个对应的期望输出值，来监督网络的学习，学习的目标为调整处理单元间的连接权值以降低网络推论输出值与期望值之间的差距。学习过程通常以一次一个训练范例的方式进行，一个网络可以训练范例反复学习，直到网络的学习达到收敛。由于类神经网络需要不断学习与调整，可适于应用在诊断、预测等问题的实验分析与探讨。1．3．4L]一MeaSuFe运用信息互斥的原理，JMeasure算法将数据集N中数据区分为数个类别，再以各类别中的区域计算某信息对于问题的熵值能够降低多少，而不是单纯将数据集N视为一个类别来处理。因此，该算法可以计算单一规则(即某一类别中的某个区域)所获得的信息，获得更好的推导结果。以上几种规则推导方法均有其优劣势，本文将重点对决策树、JMeasure两种规则推导方法分别应用实验方法予以对比验证。2基于数据挖掘技术的辅助医疗诊断实验设计

2．1概述本次实验选择澳洲研究机构的甲状腺诊断资料为测试样本，其实验流程主要分成3个阶段：资料搜集，从资料服务器或数据库服务器取得原始数据；将原始数据进行预处理，然后分别应用不同的分类及规则推导产生决策规则；将预处理后的数据与决策规则进行运算，提取出对诊断有辅助的知识。为提高数据统计应用分析的可信度，本次实验使用了EasyFit5．0软件工具计算各分组属性的最佳分布图及参数估计值，并以此产生随机数来取代遗失的数据值。2．2实验数据预处理本次选择的数据集共有23项属性，其中目标属性为Diagnoses。使用相关系数法进行数据修剪。以，l，为两数值的变数，i取{1，2，3，?n}，X、y为X与y的平均数，相关系数的计算公式如下：

计算得到各屙『生与目标屙I生的相关系数，见表1。

取相关系数大于0．1的属性，并直接删减布尔型的属性，对数据集中的属性精简为4项，TSH、Tr4、FTI与TBG。为精简后续的运算量，以直方的使用组数代替对某属性的数据进行分组的动作，将A属性的数值在第1组区问的数据编号为A1，在第2组区间的数据编号为A2，以此类推，将5000条记录精简为16组，并统计其各属性数据组的最大最小值、组间距、遗失数据量，然后依据最佳分布与参数估计值，对属性TSH、TT4、丌I、TBG产生随机数值取代遗失数据。精简后的4项属性分组统计情况，见表2。

2．3实验数据的规则产生2．3．1决策树推导取diagnoses属性为根节点，参考现有的诊断信息，以各属性的最佳分布与分组参数的值为推导特征判断条件，得到不同的分类类别，最后产生的决策树模式，见图1。整个决策树即表示了全部的推导规则。

2．3．2JMe8sure规则推导主要用于推导关于自身所属于的类别(Cm)及其互补类(NOTCm)的信息。本次实验以AND运算来产生规则，假设对于经过数据修剪后的属性分别以A、B、C、D、F表示，其中F为目标属性，则其规则表集合，见表3。

依据表2、表3，可以枚举出可用于本次实验数据集的全部JMeasure规则。

应用JMeasure中的规则匹配度公式，计算每条规则的Jinfo值，得到全部的规则推导表。挑选其中Jinfo值较大的规则作为主要规则，从而建立适合本次实验数据集的JMeasure规则集合。JMeasure的规则匹配度公式如下：

下面是一条JMeasure规则的例子及说明：规则描述：IF(TSH=1ANDTBG=5)THENdiagnoses=1(Jinfo=0．008739)该规则表示通过TSH属性与TBG属性来推导属性diagnoses=1成立，即：若符合TSH与TBG属性的特征值则推导为患病。而该规则的Jinfo值表示此规则与本次实验的数据集的适合程度较低，那么此规则不适用作为本次实验数据集的推导规则。2．4推导规则的应用以产生候选规则及用于预测计算的规则推导表。从整体资料的5000条记录中随机抽取80％的记录为基础数据，其余的20％为测试验证数据。对基础数据应用规则计算后，以预测得到的数据与验证数据比较得到预测准确率，并重复实验10次。实验结果显示，使用决策树模型所得到的前lO次平均预测准确率为88．33％，使用JMeasure算法的前10次实验平均预测准确率为94．74％，有效地3验证了本课题的研究价值。3结语因医务人员的失误导致漏诊、误诊是影响医疗质量的最直接因素，如何避免及降低医疗诊断的失误是医疗质量管理工作中必须思考的问题。本次实验研究表明，应用所定义的模块运算与规则推导，针对甲状腺肿瘤的预测正确率在80％以上，最高可达95％。由此可见，应用数据挖掘技术从大量的电子病历资料中萃取出有效的诊断知识，对于医疗人员避免问诊过程中的失误，降低疾病诊断过程中的疏忽，可以提供非常有用的参考信息。在本实验中，因模块运算后的规则数量庞大，规则计算所花费的时间平均为20分钟，对算法的改善优化，缩短规则信息是后续的重要研究之一。此外，本次研究未对其他大型数据库做完整测试，验证本模型的正确程度还需以多种大型数据库样本测试。参考文献1杨克虎，马彬，田金徽，等．美国医疗风险监管体系的循环评价及其对我国医疗风险管理的启示：关注病人安全，预防医疗差错，提高医疗质量[J]．中国循证医学杂志，2006，6(7)：514522．2刘岩，程艳敏，刘亚民．医疗事故鉴定案例251例分析讨论与对策[J]．中华医院管理杂志，2008，24(4)：273．3MarkleFoundmion．ConnectingforHealth：apublicprivatecollaborative[EB／OL]．[201015]．http：／／www．conneetingforhealth．or#resources／finalphwgrepo~1．pdf．4Frawley，W．J．，Pinatetskyshopim，G．，Matheus，C．J．．eta1．KnowledgeDiscoveryinDatabaseanoverview[J]．AIMagazine，1992，13(3)：5770．5Reinschmidt，J．，Gottschalk，H．，Kim，H．．IntelligentMinerforData：enhanceyourbusinessintelligence[J]．IBMInternationTechnicalSuppo~Organization，1999，15(4)：9．6Fayyad，U．M．，PiatetskyShapiroG．，Smyth．P．FromDataMiningtoKnowledgeDiscovery：anoverview，advancesinknowledgediscoveryanddatamining[M]．MenloPark，Calif．：AAAI／MITPress，1996：134．7Brachman，R．andAnand，T．TheProcessofKnowledgeDiscoveryinDatabase：ahumancenteredapproach．InAdvancesinKnowledgeDiscoveryandDataMining[M]．MenloPark，Calif．：AAAIPress，1996：3758．8Clark，P．Machinelearning：techniquesandrecentdevelopments[J]．ArtificialIntelligence：conceptsandapplicationsinengineering，1990，(8)：6593．9Berthold，M．M．IntelligentDataAnalysis：anintroduction[M]．2ndEditien．NewYork：Springer，2007．10Smyth，P．G．．AnInformationTheoreticApproachtoRuleInductionfromDatabases[J]．IEEETransactionsonKnowledgeandDataEngineering，1992，4(4)：301306．

电子病历存储模式研究		基于电子病历的医疗质量监测与评估
国电子病历档案发展坝状		电子病历书写质量管理的体会及需注意的问
浅谈电子病历应用下医疗纠纷的法医学鉴定		电子病历规范使用的体会
基于循证医学本体论的临床元数据设计方法研究		基于电子病历的临床医疗质量评价
门诊医生工作站的功能及实施效果		医院信息化建设的应用体会
点选式电子病历在治疗甲型HIN 1流感中		美国医改起始IT
门诊医生工作站与医院门诊流程改造		电子病历在医院药学中的作用
电子病历对整合病人全程医疗信息的作用		卫生法教学案例素材的收集与应用

信息发布：广州名易软件有限公司 http://www.myidp.net


版权所有：广州名易软件有限公司（www.myidp.net）销售热线：19927081598 技术支持：13332852796 粤ICP备16028553号