基于人工智能构建云南高海拔地区少数民族ROP发病风险预测模型
项目总览
- 项目名称:基于人工智能构建云南高海拔地区少数民族ROP发病风险预测模型
- 研究目标:探索地理环境因素(云南省高海拔)、人群遗传背景(少数民族民族)与临床医学事件(ROP)的复杂关系,推动"环境-基因-临床"交互作用研究,其方法论可推广至其他具有地域特色的疾病研究。通过机器学习模型筛选出的关键预测因子可能揭示"高海拔缺氧"在ROP发生发展中的新机制,为病因学研究提供新线索。
研究内容
数据收集
本研究拟收集云南省高海拔地区早产儿的临床数据,根据纳入标准及排除标准,系统性地收集我院新生儿科住院及至眼科眼底病专科就诊及行眼底筛查的早产儿的临床资料,包括:
母婴基本信息
- 民族、居住地海拔、胎龄、出生体重、性别、多胞胎等
围产期因素
- 母亲孕期疾病(如妊娠期高血压/糖尿病)、分娩方式、产前激素使用情况、胎膜早破、宫内感染等
新生儿期临床数据
- 出生后Apgar评分、呼吸窘迫综合征、输血史、败血症、颅内出血等并发症
- 吸氧方式及时长、NICU住院时间、首次就诊时间、治疗方式、血红蛋白
眼科检查数据
- 眼底筛查结果(按照国际ROP分类标准记录分区、分期、附加病变等),作为模型预测的"金标准"标签
预测模型构建
本研究通过主流机器学习法(补朴素贝叶斯分类算法(Complement Naive Bayes,CNB)、极端梯度提升树(Extreme Gradient Boosting,XGBoost)、随机森林(Random Forest,RF))建立ROP发病风险的预测模型,对这些预测模型的有效性进行评估,建立稳定可靠的最优预测模型,并提供临床使用。
技术指标
- 早产儿眼底正确快速的筛查及诊断:使用Retcam Ⅲ数字化广角视网膜照相机进行眼底检查,取正中位、上下左右共5个方向的视网膜逐一检查,诊断为ROP的患者再次使用间接检眼镜双向确诊。
- 人工智能机器学习法构建预测模型:使用随机森林(RF)、极端梯度提升树(XGBoost)、补朴素贝叶斯分类算法(CNB)3种主流机器学习方法进行特征重要性排序,取3个模型的变量重要性的前15个指标,画出韦恩图,取三方法的变量集合共有变量作为最终筛选的变量。用80%数据作为训练集,20%为验证集并进行五折交叉验证。
研究难点与挑战
- 数据获取的难度与质量不均:样本稀缺性与不均衡性,需要治疗的严重ROP本身是低发病率事件,导致阳性样本稀少,数据集高度不均衡。
- 长期随访数据缺失:ROP的发生和发展是一个过程,部分婴儿可能失访,导致数据不完整。
- 少数民族因素的剥离:ROP风险可能与遗传背景、生活习惯、营养状况等多种与民族相关的因素有关。
研究进度
| 研究内容 | 状态 | 完成进度 |
|---|---|---|
| S1. 数据清洗阶段 | 进行中 | 5% |
| S2. 相关性分析 | 待完成 | 0% |
| S3. 预测模型 | 待完成 | 0% |