Piemērotāko soda funkciju izvēle dažādām datu kopām loģistiskās regresijas modeļos
Autor
Koniševska, Alīna
Co-author
Latvijas Universitāte. Fizikas, matemātikas un optometrijas fakultāte
Advisor
Luguzis, Artis
Datum
2021Metadata
Zur LanganzeigeZusammenfassung
Prognozējošie modeļi tiek aktīvi izmantoti daudzās sfērās - medicīnā, zinātnē, biznesā u.c. Bieži notikums, kas ir jāprognozē, pieņem divas vērtības, kas apraksta notikuma izpildīšanos vai neizpildīšanos; to ļoti bieži prognozē ar loģistiskās regresijas palīdzību. Svarīgs faktors piemērotākā modeļa izvēlē ir modeļa vispārināmība, lai nodrošinātu augstu precizitāti uz jauniem datiem. Vēl viens svarīgs faktors ir vislabāk prognozējošo prediktoru atlase, lai modeli padarītu vienkāršāku un labāk izprotamu. Viens no veidiem, kā to paveikt, ir izmantot regresijas soda funkcijas. Nepieciešams izprast kādām datu kopām konkrētās soda funkcijas ir visatbilstošākās un sniedz visaugstāko precizitāti, lai samazinātu aprēķināšanā patērēto laiku lielām datu kopām. Darbā apskatītas vienkāršākās un biežāk izmantotās soda funkcijas, kas vispārina loģistiskās regresijas modeli, kā arī apskatīti piemērotāko soda funkciju atlases piemēri trīs datu kopām. Atslēgas vārdi: loģistiskā regresija, AUC precizitātes mērs, AUCPR precizitātes mērs, kores soda funkcija, Lasso soda funkcija, elastīgais tīkls. Predictive models are actively used in many fields - medicine, science, business, etc. Often, the event that needs to be predicted takes only two values that describe whether the event will occur or not; it is very often predicted by logistic regression. An important factor in choosing the most applicable model is the generality of the model to ensure high accuracy on new data. Another important factor is the selection of the most predictive predictors to make the model simpler and more understandable. This is done by penalized regression. It is necessary to understand for which data sets the specific penalty functions are the most applicable and provide the highest accuracy in order to reduce the calculation time for large data sets. The paper discusses the simplest and most frequently used penalty functions, which generalize the logistic regression model, as well as examples of selection of the most applicable penalty functions for three data sets. Keywords: logistic regression, AUC metric, AUCPR metric, Ridge penalty, Lasso penalty, elastic net.