6 UČENJE I STROJNO UČENJE
AdaMax (2015.), Nadam (2015.), AMSGrad (2018.)
. Modifikacije se od osnovnog algoritma razlikuju
uglavnom po modifikaciji parametra brzine učenja i/ili modifikaciji gradijentne komponente.
6.3.3 Linearna regresija s više varijabli
Svi znamo da cijene rabljenih automobila ne ovise samo i jedino o godini proizvodnje. Osim godine
proizvodnje, cijeli je niz faktora koji utječu na konačnu cijenu automobila, poput proizvođača i modela,
snage motora, broja prijeđenih kilometara itd. Faktore koji utječu na konačnu cijenu nazvat ćemo
značajke (engl. Features). Broj značajki koje ćemo uzeti u obzir označit ćemo s n. Kod linearne regresije
s jednom varijablom broj značajki koji je uzet u obzir bio je n = 1.
Ako predviđamo kontinuirane vrijednosti linearnom hipotezom temeljem više vrijednosti, radimo
linearnu regresiju s više varijabli (engl. MVLR – Multi Variable Linear Regresson ili samo Multiple
Linear Regression) kod koje hipoteza glasi:
"
$
3
3
(6-8)
Zadatak 7. – Primjer linearne regresije s više varijabli
Linearna regresija s više varijabli kod predviđanja cijene rabljenih automobila. Za potrebe primjera
prikupljeni su podaci o cijenama rabljenih automobila s mrežne stranice za oglašavanje
www.njuskalo.hr. Uzeti su oglasi u kojima su oglašavane prodaje rabljenih automobila te u kojima
su navedene cijene i dodatne informacije o kojima će u nastavku biti više govora. Dio prikupljenih
podataka za treniranje prikazan je u tablici 6-6. Imamo ukupno 6 različitih značajki (n = 6).
Tablične podatke također možemo prikazati matrično. Umjesto vektora x koji je sadržavao samo
jednu varijablu sada imamo matricu s n stupaca, pa matrica X koja se kod linearne regresije s
jednom varijablom sastojala od dva stupca – stupca jedinica i stupca s vrijednostima značajki, kod
linearne regresije s više varijabli postaje matrica s n+1 stupcem – stupac jedinica i po jedan stupac
za svaku od n značajki.
Neke značajke koje su nam bitne kod određivanja cijene nemaju numeričke vrijednosti, poput
marke automobila ili boje. Kako se algoritam oslanja na numeričke proračune, potrebno ih je na
neki način predstaviti (kodirati) brojevnim vrijednostima kako bi ih se moglo uzeti u obzir u
proračunu. Tako ćemo npr. bijelu boju označiti brojem 1, sivu brojem 2, crnu brojem 3 itd. Sada
nam boja kao značajka može biti navedena u matrici značajki X.
Drugi način tretiranja nenumeričkih podataka s konačnim brojem nominalnih vrijednosti je „one-
hot encoding” postupak. Za svaku vrijednost koju podatak može poprimiti uvodi se novi stupac kao
nova značajka. Za svaki uzorak vrijednost samo jedne od grupe značajki je 1, i to za onu značajku
koja odgovara vrijednosti, dok je za ostale vrijednost 0. Primjer ovakvog načina kodiranja za boju
automobila za neke od automobila iz tablice 6-6 prikazan je u tablici 6-7.
Postupak proračuna parametara θ
0
, θ
1
, ... , θ
n
ostaje isti prema jednadžbi 6-4, odnosno u matričnoj
formi jednadžbi 6-7. U našem primjeru pogledat ćemo što će linearna regresija dati ako nas zanima
ovisnost cijene o godini (x
1
), prijeđenim kilometrima (x
2
) i broju vrata (x
3
). Rezultat je
:
"
$
%-558J:444'K:JJ<#
#
-4)49L:K<3#
$
':6KK<3#
1
Zanimljivo je pogledati koje bi cijene automobila, za podatke koje smo koristili, dala ova jednadžba
linearne regresije. Najveće odstupanje je naravno za podatke koji su najudaljeniji od pravca
linearne regresije. Na primjer, za Mercedes E-klase 350 4MATIC cijena u oglasu je bila 144986 kn.
Jednadžba linearne regresije s jednom varijablom daje 56032 kn, a jednadžba linearne regresije s
Više detalja o ovim algoritmima može se pronaći npr. na
https://towardsdatascience.com/10-gradient-descent-optimisation-algorithms-86989510b5e9
Korišten je on-line kalkulator https://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/MultRgression.htm