临床数据挖掘的基本流程
- 作者:郭有
- 来源:CHIMA
- 发布时间:2023-02-03 11:30
临床数据挖掘的基本流程
【概要描述】基于上述五个分析过程,总结报告需要详细描述研究设计、特征变量数据集的建立和预处理、数据质控、检测分析平台、统计分析流程和原理,并在结果报告中恰当使用图表和图形等可视化方式,呈现特征变量数据的基本特征及模型拟合优度。
- 作者:郭有
- 来源:CHIMA
- 发布时间:2023-02-03 11:30
临床数据挖掘过程包括定义临床问题并确定变量数据集、从业务信息系统中提取数据、根据数据特征与分析目的对数据做预处理,特征变量选择或特征提取、构建模型与评价,最后是结论报告与模型应用。
在数据挖掘过程中,特别需要强调三点:
第一,为降低生物噪声、数据噪声、数据缺失等不可控因素对于数据挖掘的影响,数据挖掘的每项具体过程或细节都需要反复探索;
第二,数据挖掘不能简单依赖一种统计方法,应该考虑多种技术方法,并对不同方法进行比对与适当改进,以使数据挖掘方法适用于研究对象及变量数据分布特征;
第三,在特征提取时,为有效地降维降噪,数据分析模型中需要引入部分参数,参数选择设置的正确与否直接影响降维降噪效果,因此需要反复探索。
一、定义临床问题
提出临床问题是临床数据挖掘研究的核心过程,一个有价值的、有数据支持的临床问题是数据挖掘研究的前提,有助于制定变量数据收集策略,提高解决临床问题的针对性。找准临床问题不仅要具备对患者的责任心、丰富的临床诊疗知识、扎实的临床实践,而且要有一定的医患心理行为学知识与综合分析判断能力。
定义临床问题是确定变量数据集的前提,也是数据挖掘中的最主要的任务, 推荐采用PIOC法则(Participants,Interventions,Outcomes,Comparisons)来定义临床问题。例如,临床问题是“肝癌患者术后早期是否复发”,PIOC分别为以下四方面:
Comparisons是指肝癌术后早期有复发和无复发患者形成的两个可比组,即复发组VS无复发组。
若临床问题属于诊断范畴,可省去Interventions。例如,临床问题是“局部进展期直肠癌患者是否有淋巴结转移”,则PIOC分别为:Participants是明确临床诊断的局部进展期直肠癌;Outcomes是特定部位淋巴结是否出现肿瘤转移;Comparisons为有无淋巴结转移的局部进展期直肠癌患者形成的可比较组,即淋巴结转移组VS淋巴结非转移组。
二、数据准备与数据提取
慢性疾病研究涉及患者数量多、治疗周期长,一家医院患者的临床数据完整程度不高,许多重要指标需随访跟踪,完成难度相对较大。在“直肠癌化疗后心血管疾病发生风险研究”中,研究结果的影响因素就比较多。临床科研工作者很难掌握直肠癌患者院外医嘱执行情况,化疗周期长和患者流动性也使得疾病进展中获取特征变量数据难度较大,难以准确判断心血管疾病患病时点。这些因素都增加了化疗与心血管疾病的因果关系分析难度。
急危重症患者的治疗周期比较短,治疗见效快,临床特征变量数据的完整度也比较高,数据提取工作相对容易。在“急性胰腺炎患者是否耐受院内肠营养研究”中,患者规模相对较小、治疗周期短、临床特征变量数据的完整度高,治疗后“是否耐受肠营养”在病程记录中有完整记录。
三、数据预处理
四、特征提取
特征提取,又称为自变量筛选,是数据挖掘最为关键的一个分析环节。由于临床特征变量的数目较多,其中一些特征变量在预测临床结局时,实际临床意义不大或缺乏临床应用场景。因此,需要对特征变量进行选择,即特征提取。其目的是探索特征变量对于预测结局的影响大小及重要性,进而综合权衡选择对结局影响更加显著的或有巨大临床应用价值的特征变量进入预测模型,以提高预测模型的稳定性、准确性、实用性。
特征提取方法有相关分析、逻辑回归模型(Logistic regression)、平均准确度减少(Mean accuracy reduction)法、递归特征消除(Recursive feature elimination)、互信息与最大信息法则(Mutual information and maximum information),相关分析最为常用,具体分析方法可依据特征变量的数据分布类型进行确定。
提取特征后,使用逻辑回归模型、决策树、随机森林、随机支持向量机、神经网络等机器学习算法,建立全局最优(Global optimal)或局部最优(Local optimal)的预测模型。
评估预测模型的临床意义,就是从临床使用预测模型后的收益角度进行评估,其重要性并不亚于准确性评估。区分准确性评估和临床意义评估非常重要,如建立分子诊断模型或者影像诊断模型,用于判断直肠癌患者是否存在淋巴结转移即属于准确性问题。而使用上述诊断模型指导患者接受治疗后的效果是否更好,即属于诊断模型的临床意义问题。
模型评估是建模过程中最为关键的一步,这就要求研究者十分熟悉数据挖掘方法与临床特征变量的各自特点,才能科学评估并建立准确且有临床价值的预测模型。
基于上述五个分析过程,总结报告需要详细描述研究设计、特征变量数据集的建立和预处理、数据质控、检测分析平台、统计分析流程和原理,并在结果报告中恰当使用图表和图形等可视化方式,呈现特征变量数据的基本特征及模型拟合优度。
临床科研数据挖掘研究融合了多学科知识,需要多学科人员协同合作,在临床数据处理过程中需要不断修正研究方案,重新调整数据提取和分析策略。但是,分析方案的更迭,向多方参与协作这一方式提出了挑战。临床科研工作者负责临床背景与意义和数据内容需求,包括特征变量的重要性、名称、来源、取值范围、临床意义和提取标准,数据工程师负责数据提取代码、数据分析过程和结果输出等分析执行与报告撰写。建立合理的数据质控点,可以使临床数据挖掘有据可依,既方便追溯,又有助于多方协同合作,及时发现漏洞,完善研究方案,提高工作效率。