2. 中山大学肿瘤防治中心 华南肿瘤学国家重点实验室, 广东 广州 510060;
3. 中山大学肿瘤防治中心 广东省恶性肿瘤临床医学研究中心, 广东 广州 510060
2. State Key Laboratory of Oncology in South China, Sun Yat-sen University Cancer Center, Guangzhou 510060, China;
3. Guangdong Clinical Research Center for Cancer, Sun Yat-sen University Cancer Center, Guangzhou 510060, China
乳腺癌已成为全球最常见的女性癌病,是最致命的女性癌症之一[1],2020年约有68.5万女性死于患乳腺癌[2]。研究发现部分乳腺癌患者在确诊后十年期间仍存活于复发可能性的阴影之下[3],因此针对乳腺癌患者的预后管理显得尤为重要,但其适用性和有效性又受限于临床医生颇具主观性的专业经验。近年来,生存分析[4]技术被用以辅助像乳腺癌这种发病不明显、病程较长的疾病制定预后措施,研究人员将预后和预测特征即患者病理协变量独立或整合以指导患者的治疗[5]。鉴于个体化医学的重要性,研究人员结合当下个体化医学研究中流行的用于发现并识别复杂数据之间模式和关系的机器学习技术,对乳腺癌等长病程数据集进行个体生存分析。此类方法基于患者间的病理协变量表达差异实现个性化的生存风险估计,进而绘制患者个体生存曲线,以辅助实现精准医疗。
近年来,个体生存分析研究主要分为基于Cox比例风险假设的生存分析和无参数型离散生存分析。Cox比例风险模型假设独立协变量对生存时间的影响不随时间而变化,以评估多个协变量对生存的影响[6]。Katzman等 [7]基于Cox对数比例风险假设搭建一个深度前馈神经网络DeepSurv,用于预测患者协变量对风险率的影响。Lee等 [8]使用一个共享子网络以处理并预测时变协变量,同时设计多个特定原因子网络捕获特定原因风险同协变量之间的关系,构成Dynamic-DeepHit模型用于动态风险预测。Tang等[9]对删失数据进行最大似然估计并结合常微分方程进行生存分析建模。上述单任务回归模型遵循对数风险假设,导致乳腺癌患者间的风险函数永不相交,虽然可描绘出患者病情在总生存期中一个大致的走势,但难以实现阶段性且个性化的生存风险描述。Yu等[10]提出多任务线性回归模型(Multi-task Logistic Regression, MTLR),其采用响应转换的方式绕过比例风险假设以实现生存函数预测,但回归器核心为线性变换,难以捕捉患者生存数据中的非线性关系。Fotso等[11]通过往MTLR中引入多层感知器,实现灵活的建模,并命名为N-MTLR(Neural Multi-task Logistic Regression)。Hu等[12]基于时下流行的Transformer网络架构,使用有序回归实现对时变生存概率的优化,但受限于多头注意力机制在病理协变量对风险概率贡献较均衡时难以分配权重。Wang等[13]提出了多任务带状回归模型(Multi-task Banded Regression, MTBR),带状校验矩阵的引入为响应转换提供约束,解决风险概率下降缓慢导致的生存概率分配不均的情况。以上的多任务回归模型采用线性变换或多层感知器进行响应转换,使得协变量独立于多个序列之间,难以提取出病理协变量对不同患者生存时间之间影响的异同关系,导致模型一致性指数下降。
为此,本文提出了一种新的多任务回归模型RNN-MTBR(Multi-task Banded Regression via Recurrent Neural Network) 用于乳腺癌个体生存分析。首先,针对以往的多任务模型的回归器无法使序列之间产生前后联系的状况,使用循环神经网络(Recurrent Neural Network, RNN) [14]作为多任务回归模型的核心,RNN可通过维护网络过去的记忆,让模型在提取病理协变量同生存时间的关系时能利用到序列的上下文信息。其次,将带状校验矩阵改进并探究其对风险分布的作用效果。最后,在乳腺癌真实数据集上实现了对个体生存分析区分度的优化,成功验证了模型的有效性。
1 乳腺癌生存分析给定一个含有M名患者的乳腺癌生存数据集,设
对于在观察期间内能够完整观察到事件发生的患者个体实例,其生存时间记为实际事件时间
乳腺癌个体生存分析利用患者病理独立协变量
多任务方法通过在不同时间间隔上建立回归模型,来计算乳腺癌患者死亡在每个时间间隔中发生的概率,使不同患者间的结果具有更为明显的差异性。多任务回归模型以响应变量的形式来分别代表患者在每一时间间隔的状态(生存或死亡)。假设总生存期分为N个生存子区间,则在第j个生存子区间
$ {y}_{i}=\left\{\begin{array}{l}1,{\tau }_{j}为患者死亡事件发生所在生存子区间\\ 0,其余生存子区间\end{array}\right. $ | (1) |
且患者发生死亡事件后的所有时间间隔响应变量值将恒为1。因而患者的生存向量为
$ {\boldsymbol{Y}}={[{y}_{1}=0, \cdots ,{y}_{j-1}=0,{y}_{j}=1,{\cdots ,y}_{N}=1]}^{\mathrm{T}} $ | (2) |
多任务循环神经网络带状回归模型的处理流程如图2所示。将患者的病理协变量X输入循环神经网络回归器中并以生存向量
当乳腺癌患者的生存时间分为N个生存子区间,则多任务回归模型的可信度矩阵[16]为
$ \boldsymbol{A}=\left[\begin{array}{ccc}{\boldsymbol{A}}_{{\boldsymbol{1}}}& & \\ & \begin{array}{ccc}\ddots & & \\ & {\boldsymbol{A}}_{\boldsymbol{i}}& \\ & & \ddots \end{array}& \\ & & {\boldsymbol{A}}_{\boldsymbol{N}}\end{array}\right] $ | (3) |
式中:
MTBR中将各组分系数矩阵设计为正二对角块非奇矩阵,定义为
${\boldsymbol{B}} = \left[ {\begin{array}{*{20}{c}} {{b_0}}&{{b_1}}&0& \cdots &0\\ {{b_{ - 1}}}&{{b_0}}&{{b_1}}& \cdots &0\\ 0&{{b_{ - 1}}}&{{b_0}}& \cdots &0\\ \vdots & \vdots & \vdots & &{{b_1}}\\ 0&0&0&{{b_{ - 1}}}&{{b_0}} \end{array}} \right] $ | (4) |
且必须保持矩阵主对角线占优,故矩阵需满足各行和(对称矩阵中同各列和)为1,且
本文中乳腺癌患者的风险分布函数为
$ {\boldsymbol{f}}\left({\tau }_{s},{\boldsymbol{X}}\right) =\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{\psi}} \left({\boldsymbol{X}}\right) \varsigma {\boldsymbol{\varDelta}} {\boldsymbol{Y}}\right) }{{\boldsymbol{Z}}\left({\boldsymbol{\psi}} \left({\boldsymbol{X}}\right) {\boldsymbol{\varsigma}} \right) } $ | (5) |
式中:
$ S\left({\tau }_{s},{\boldsymbol{X}}\right) =1-\sum _{k=1}^{s}\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{\psi}} \left({\boldsymbol{X}}\right) {\boldsymbol{\varsigma}} {\boldsymbol{\varDelta}} \widehat{y}\right) }{{\boldsymbol{Z}}\left({\boldsymbol{\psi}} \left({\boldsymbol{X}}\right) {\boldsymbol{\varsigma}} \right) } $ | (6) |
模型的损失函数由两部分组成,第1部分为累计损失函数,公式为
$ \begin{split}{L}_{1}=&\sum _{i=1}^{K}\bigg(\delta \left({k}_{i}\ne \mathrm{\varnothing }\right) \sum _{j=0}^{N}|\widehat{F}({\tau }_{j}|{\boldsymbol{X}}) -{y}_{j}|+\\ & \delta \left({k}_{i}=\mathrm{\varnothing }\right) \sum _{j=0}^{{\tau }_{{\rm{e}}}}|\widehat{F}({\tau }_{j}|{\boldsymbol{X}}) -{y}_{j}|\bigg) \end{split}$ |
式中:
第2部分为排序损失函数,公式为
$ {L}_{2}=\sum _{k=1}^{K}\sum _{i\ne j}\delta ({k}_{i}={k}_{j},{y}_{i} < {y}_{j}) \mathrm{e}\mathrm{x}\mathrm{p}(\widehat{F}({\tau }_{k}|{{\boldsymbol{X}}}_{j}) -\widehat{F}({\tau }_{k}|{{\boldsymbol{X}}}_{i}) ) $ | (8) |
本文采用METABRIC[18]和GBSG[19]2种常用的乳腺癌真实数据集来评估模型的性能。METABRIC数据集包含1 980例乳腺癌患者的9项特征记录,其中约58%的患者死于患乳腺癌,中位生存时间为116个月。GBSG数据集包含2232例乳腺癌患者的记录,其中1546例为淋巴结阳性乳腺癌患者,以及686例随机临床试验的患者完整数据,删失数据约占57%。
本文采用生存分析研究中常用的一致性指数(Concordance index, C-index) [20]作为评估指标,C-index常被用于评价预后模型的预测精度,判断出模型的区分能力,公式为
$ \mathrm{C}{\text{-}}\mathrm{i}\mathrm{n}\mathrm{d}\mathrm{e}\mathrm{x}=\frac{\displaystyle\sum_{i,j}\varphi ({t}_{i} < {t}_{j}) \varphi ({\eta }_{i} < {\eta }_{j}) {\delta }_{i}}{\displaystyle\sum_{i,j}\varphi ({t}_{i} < {t}_{j}) {\delta }_{i}} $ | (9) |
式中:
为了验证模型的可靠性,将数据集以6:2:2的比例分为训练集、验证集和测试集,并采用更换随机种子的方式进行10次实验,基于正态分布法计算C-index的95%置信区间。RNN-MTBR的模型采用循环神经网络作为核心,隐藏层维度为32,选用Adam优化器,Dropout概率设为0.1,学习率设为0.01。
3.2 实验结果 3.2.1 带状校验矩阵系数对患者生存概率分布的影响带状校验矩阵系数变化会对RNN-MTBR模型性能产生影响,本文通过固定带状校验矩阵主对角线系数
图4为各组分为正二对角块非奇矩阵的带状校验矩阵与优化为只含有主对角线元素和次对角线元素的Toeplitz矩阵生存模型C-index的对比。经比较,优化后带状校验矩阵对模型性能的提升更大。
CoxCC[21]、DeepSurv[7]、DeepHit[8]、SODEN[9]、N-MTLR[11]、Transformer-Based DSA[12]和MTBR[13]共7种生存分析模型作为RNN-MTBR的实验对比模型。表1为各生存分析模型在乳腺癌数据集测试集上的C-index值及95%置信区间。从表1可以看出,本文提出的RNN-MTBR模型效果在变更回归器核心为循环神经网络和优化了带状校验矩阵后,模型在2个数据集上的预测性能相比原先的MTBR模型均有所提升,且同其他主流的生存分析模型相比具有最好的预测性能。
图5给出了几种模型分别在GBSG数据集中拟合相同的5例乳腺癌患者的生存曲线的效果。CoxCC和DeepSurv属于比例风险模型,该种模型默认所有个体拥有相同的基线风险,且实际风险与基线风险成正比,使得计算得到的患者间风险不会出现交叉,这与现实相悖。DeepHit没有考虑对连续时间的尺度离散化,导致患者间生存曲线差异化不明显。N-MTLR将多层感知器引入多任务回归中,能提取患者生存数据中的非线性关系,但存在响应转换在阈值附近波动的现象,导致生存曲线中较多出现生存率下降幅度减小的情况。MTBR通过引入带状校验矩阵有效抑制了响应转换波动在阈值附近出现的现象,使得患者生存曲线能呈现较明显的下降趋势,但患者之间差异性的体现仍不明显。RNN-MTBR将MTBR核心替换为RNN,输入数据则得以在各时间步之间实现上下文关联,并能在不同时间步之间共享权重,并合理调整带状校验矩阵,使得患者生存概率下降幅度随时间变化显得更为合理且患者之间的生存曲线能有较为明显的差异性,从而方便个性化预后管理的施行。
本文采用循环神经网络作为多任务回归器,优化设计了带状校验矩阵,提出了一种多任务循环神经网络带状回归模型,并应用于乳腺癌个体生存分析。在2个乳腺癌真实数据集的生存分析中,多任务循环神经网络带状回归模型的C-index较医学界常用的Cox比例风险模型提升了0.02,且有效缩小了95%置信区间。研究还通过可视化的生存曲线验证了新模型对患者间区分效果的增益性。
[1] |
ZHOU X, LI C, RAHAMAN M M, et al. A comprehensive review for breast histopathology image analysis using classical and deep neural networks[J].
IEEE Access, 2020, 8: 90931-90956.
DOI: 10.1109/ACCESS.2020.2993788. |
[2] |
ARNOLD M, MORGAN E, RUMGAY H, et al. Current and future burden of breast cancer: global statistics for 2020 and 2040[J].
The Breast, 2022, 66: 15-23.
DOI: 10.1016/j.breast.2022.08.010. |
[3] |
LOH S Y, YIP C H. Breast cancer as a chronic illness: implications for rehabilitation and medical education[J].
Journal of Health and Translational Medicine, 2006, 9(2): 3-11.
|
[4] |
GEORGE B, SEALS S, ABAN I. Survival analysis and regression models[J].
Journal of Nuclear Cardiology, 2014, 21(4): 686-694.
DOI: 10.1007/s12350-014-9908-2. |
[5] |
GANGGAYAH M D, TAIB N A, HAR Y C, et al. Predicting factors for survival of breast cancer patients using machine learning techniques[J].
BMC Medical Informatics and Decision Making, 2019, 19(1): 1-17.
DOI: 10.1186/s12911-018-0723-6. |
[6] |
SCHOBER P, VETTER T R. Survival analysis and interpretation of time-to-event data: the tortoise and the hare[J].
Anesthesia and Analgesia, 2018, 127(3): 792.
DOI: 10.1213/ANE.0000000000003653. |
[7] |
KATZMAN J L, SHAHAM U, CLONINGER A, et al. DeepSurv: personalized treatment recommender system using a Cox proportional hazards deep neural network[J].
BMC Medical Research Methodology, 2018, 18(1): 1-12.
DOI: 10.1186/s12874-017-0458-6. |
[8] |
LEE C, YOON J, VAN DER SCHAAR M. Dynamic-deephit: a deep learning approach for dynamic survival analysis with competing risks based on longitudinal data[J].
IEEE Transactions on Biomedical Engineering, 2019, 67(1): 122-133.
|
[9] |
TANG W, MA J, MEI Q, et al. SODEN: a scalable continuous-time survival model through ordinary differential equation networks[J]. J Mach Learn Res, 2022, 23: 34: 1-34: 29.
|
[10] |
YU C N, GREINER R, LIN H C, et al. Learning patient-specific cancer survival distributions as a sequence of dependent regressors[J].
Advances in Neural Information Processing Systems, 2011, 24: 1845-1853.
|
[11] |
FOTSO S. Deep neural networks for survival analysis based on a multi-task framework[EB/OL]. arXiv: 1801.05512(2018-01-17) [2023-01-09]. https://doi.org/10.48550/arXiv.1801.05512.
|
[12] |
HU S, FRIDGEIRSSON E, VAN WINGEN G, et al. Transformer-based deep survival analysis[C]//Survival Prediction-Algorithms, Challenges and Applications. New York: PMLR, 2021: 132-148.
|
[13] |
王慧恒, 蔡念, 陈睿, 等. 面向癌症个体生存分析的多任务带状回归模型[J].
计算机工程与应用, 2023, 59(10): 299-305.
WANG H H, CAI N, CHEN R, et al. Multi-task banded regression model for individual cancer survival analysis[J]. Computer Engineering and Applications, 2023, 59(10): 299-305. DOI: 10.3778/j.issn.1002-8331.2201-0431. |
[14] |
MEDSKER L R, JAIN L C. Recurrent neural networks[J].
Design and Applications, 2001, 5: 64-67.
|
[15] |
WU Y, HALABI S. Interval censoring[M]. Boca Raton: Chapman and Hall/CRC, 2019: 493-508.
|
[16] |
BUHLMANN H, GISLER A. Credibility in the regression case revisited (A late tribute to Charles A. Hachemeister)[J].
ASTIN Bulletin: The Journal of the IAA, 1997, 27(1): 83-98.
DOI: 10.2143/AST.27.1.563207. |
[17] |
YE K, LIM L H. Every matrix is a product of toeplitz matrices[J].
Foundations of Compu-tational Mathematics, 2016, 16(3): 577-598.
DOI: 10.1007/s10208-015-9254-z. |
[18] |
CURTIS C, SHAH S P, CHIN S F, et al. The genomic and transcriptomic architecture of 2000 breast tumours reveals novel subgroups[J].
Nature, 2012, 486(7403): 346-352.
DOI: 10.1038/nature10983. |
[19] |
SCHUMACHER M, BASTERT G, BOJAR H, et al. Randomized 2 × 2 trial evaluating hormonal treatment and the duration of chemotherapy in node-positive breast cancer patients[J].
Journal of Clinical Oncology, 1994, 12(10): 2086-2093.
DOI: 10.1200/JCO.1994.12.10.2086. |
[20] |
ANTOLINI L, BORACCHI P, BIGANZOLI E. A time-dependent discrimination index for survival data[J].
Statistics in Medicine, 2005, 24(24): 3927-3944.
DOI: 10.1002/sim.2427. |
[21] |
KVAMME H, BORGAN Ø, SCHEEL I. Time-to-event prediction with neural networks and Cox regression[EB/OL]. arXiv: 1907.00825 (2019-09-13) [2023-01-09]. https://doi.org/10.48550/arXiv.1907.00825.
|