Mašīnmācīšanās modeļu izmantošana krūts vēža recidīva riska prognozēšanai
Author
Reine, Samanta
Co-author
Latvijas Universitāte. Medicīnas un dzīvības zinātņu fakultāte
Advisor
Erts, Renārs
Date
2025Metadata
Show full item recordAbstract
Ievads: Krūts vēzis ir viens no biežāk sastopamajiem ļaundabīgajiem audzējiem pasaulē un viens no biežākajiem nāves cēloņiem sievietēm. Neskatoties uz mūsdienu diagnostikas iespējām un attīstītajām ārstēšanas metodēm, jebkura iespēja laicīgi prognozēt krūts vēža recidīvu ir nozīmīga pacienta dzīvildzes pagarināšanai. Mašīnmācīšanās metodes šobrīd ieņem nozīmīgu vietu medicīnā un var būtiski veicināt agrīnu krūts vēža recidīva pronozēšanu un diagnostiku. Pētījuma mērķis: Izmantojot retrospektīvus datus apmācīt dažādus mašīnmācīšanās modeļus un izpētīt to potenciālu krūts vēža recidīva prognozēšanai. Materiāli un metodes: Retrospektīvs pētījums, kas tika veikts Paula Stradiņa Klīniskās universitātes slimnīcas Onkoloģijas klīnikā. Tika ievākti un apstrādāti dati par 310 pacientēm izmantojot IMB SPSS v.29. un R programmu. Daļa iegūto datu tika izmantoti, lai apmācītu vairākus mašīnmācīšanās modeļus (Decision Tree, Random Forest, Neural Network, XGBoost, SVM, Naive Bayes), pēc kā atlikusī daļa datu tika izmantota, lai testētu šo modeļu spēju prognozēt krūts vēža recidīvu. Iegūtie dati tika salīdzināta modeļu precizitātes izvērtēšanai recidīva prognozēšanā. Rezultāti: Pētījumā ietvaros recidīvs tika apstiprināts 11,0 % (95,0 %; TI: 8,0 % – 15,0 %) gadījumos. Būtiska saistība ar recidīva attīstību tika konstatēta audzēja izmēram, kas lielāks par 5,0 cm (χ2 = 67,98; p = 0,001), trīskārši negatīvam krūts vēzim (χ2 = 10,85; p = 0,013) un audzēja marķieriem CA–125 (χ2 = 6,42; p = 0,011), CEA (χ2 = 5,85; p = 0,016) CA 15–3 (χ2 = 12,57; p = 0,001). Apmācot modeļus ar Datu kopa Nr. 1 labāko rezultātu uzrādīja Gadījuma meža modelis (AUC = 0,97), XGBoost (AUC = 0,93) un Neironu tīkls (AUC = 0,88), kas liecina par augstu prognozēšanas spēju. Apmācībai izmantojot Datu kopa Nr. 2 vislabāko rezultātu sasniedza Gadījuma meža modelis (AUC = 0,93), Neironu tīkls (AUC = 0,90) un Lēmumu koka modelis (AUC = 0,89). Izmantojot Datu kopa Nr. 3 tika apmācīti divi modeļi – NB (AUC = 0,66) un XGBoost (AUC = 0,65), kas uzrādīja zemu prognozēšanas spēju. Veicot viena mainīga loģistiskās regresijas analīzi paaugstināts krūts vēža recidīva risks tika statistiski nozīmīgi saistīts ar šādiem mainīgajiem: ECOG stāvokli (OR = 2,86; 95,0 % TI: 1,75–4,79; p < 0,001), audzēja izmēru (< 5,0 cm) (OR = 7,58; 95,0 % TI: 4,00–15,38; p < 0,001), CA–125 virs normas (> 35,0 IU/ml.) (OR = 2,93; 95,0 % TI: 1,20–6,81; p = 0,01), CEA virs normas (>5,0 ng/ml) (OR = 3,12; 95,0 % TI: 1,13–7,91; p = 0,02), CA 15–3 virs normas (>30,0 U/mL) (OR = 3,81; 95 % TI: 1,73–8,29; p < 0,001). Secinājumi: Pētījums apliecina, ka, izmantojot klīniskos un histopatoloģiskos datus (Datu kopas Nr. 1 un Nr. 2), iespējams veiksmīgi apmācīt mašīnmācīšanās modeļus krūts vēža recidīva prognozēšanai, kur visaugstāko veiktspēju uzrādīja Gadījuma meža modelis, kam sekoja Neironu tīkls un XGBoost. Inroduction: Breast cancer is one of the most common malignant tumors in the world and one of the most common causes of death in women. With modern diagnostic capabilities and advanced treatment methods, any opportunity to predict breast cancer recurrence in a timely manner is important for prolonging patient survival. Machine learning methods are currently taking their place in medicine and can contribute to early prognosis and diagnosis of breast cancer recurrence. Aim: Use retrospective data to train various machine learning models and explore their potential for predicting breast cancer recurrence. Materials and methods: A retrospective study conducted at the Oncology Clinic of Pauls Stradiņš Clinical University Hospital. Data on 310 patients were collected and processed using IMB SPSS v.29. and the R program. Part of the obtained data was used to train several machine learning models (Decision Tree, Random Forest, Neural Network, Xgboost, SVM, Naive Bayes), after which the remaining part of the data was used to test the ability of these models to predict breast cancer recurrence. The obtained data were compared to evaluate the accuracy of the models in predicting recurrence. Results: In the study, recurrence was confirmed in 11.0 % (95.0 %; CI: 8.0 % – 15.0 %) cases. A significant association with the development of recurrence was found for tumor size greater than 5.0 cm (χ2 = 67.98; p = 0.001), triple-negative breast cancer (χ2 = 10.85; p = 0.013) and tumor markers CA–125 (χ2 = 6.42; p = 0.011), CEA (χ2 = 5.85; p = 0.016) CA 15–3 (χ2 = 12.57; p = 0.001). When training models with Dataset No. 1 the best results were shown by Random Forest (AUC = 0.97), XGBoost (AUC = 0.93) and Neural Network (AUC = 0.88), which indicates high predictive ability. Using Data Set No. 2 for training, the best results were achieved by Random Forest (AUC = 0.93), Neural Network (AUC = 0.90) and Decision Tree (AUC = 0.89). Using Data Set No. 3, the models showed low predictive ability (NB (AUC = 0.66) and XGBoost (AUC = 0.65)). In univariate logistic regression analysis, an increased risk of breast cancer recurrence was statistically significantly associated with the following variables: ECOG status (OR = 2.86; 95.0 % CI: 1.75–4.79; p < 0.001), tumor size (<5.0 cm)(OR = 7.58; 95.0 % CI: 4.00–15.38; p < 0.001), CA–125 above normal (>35.0 IU/mL.) (OR = 2.93; 95.0% CI: 1.20–6.81; p = 0.01), CEA above normal (>5.0 ng/mL) (OR = 3.12; 95.0% CI: 1.13–7.91; p = 0.02), CA 15–3 above normal (>30.0 U/mL) (OR = 3.81; 95.0 % CI: 1.73–8.29; p < 0.001). Conclusion: The study demonstrates that using clinical and histopathological data (data sets No. 1 and No. 2), it is possible to successfully train machine learning models for predicting breast cancer recurrence, where the Random Forest model showed the highest performance, followed by the Neural Network and XGBoost.