Title
Redukcija dimenzionalnosti podataka u klasifikacionim problemima veštačke inteligencije
Creator
Novaković, Jasmina Đ., 1965-
Copyright date
2013
Object Links
Select license
Autorstvo-Nekomercijalno 3.0 Srbija (CC BY-NC 3.0)
License description
Dozvoljavate umnožavanje, distribuciju i javno saopštavanje dela, i prerade, ako se navede ime autora na način odredjen od strane autora ili davaoca licence. Ova licenca ne dozvoljava komercijalnu upotrebu dela. Osnovni opis Licence: http://creativecommons.org/licenses/by-nc/3.0/rs/deed.sr_LATN Sadržaj ugovora u celini: http://creativecommons.org/licenses/by-nc/3.0/rs/legalcode.sr-Latn
Language
Serbian
Cobiss-ID
Inventory ID
D-2674
Theses Type
Doktorska disertacija
description
datum odbrane: 10.10.2013.
Other responsibilities
mentor
Veljović, Alempije, 1951- (ths, code: 06976)
član komisije
Micić, Živadin, 1955- (oth, code: 06987)
član komisije
Milanović, Dragan. (oth)
član komisije
Radenković, Božidar, 1958- (oth, code: 01723)
član komisije
Milošević, Danijela, 1967- (oth, code: 06997)
Academic Expertise
Tehničko-tehnološke nauke
University
Univerzitet u Kragujevcu
Faculty
Fakultet tehničkih nauka
Format
PDF/A (listova)
description
Beleška o autoru.
Univerzitet u Kragujevcu, Fakultet tehničkih nauka u Čačku, 2013, doktor tehničkih nauka.
Umnoženo za odbranu.
Bibliografija: listovi 207-213.
Rezime ; Abstract.
Abstract (sr)
Središnji problem mašinskog učenja je identifikovanje reprezentativnog seta podataka na osnovu koga će se konstruisati klasifikacioni model za svaki pojedinačni zadatak. U ovoj doktorskoj disertaciji istražujemo problem redukcije dimenzionalnosti podataka u klasifikacionim problemima veštačke inteligencije korišćenjem različitih metoda za selekciju i ekstrakciju atributa. Metode selekcije atributa obuhvataju: metode filtriranja, metode prethodnog učenja i ugrađene metode. Osnovna hipoteza je da je moguće znatno poboljšati performanse sistema za induktivno učenje pravila u problemima klasifikacije, primenom različitih metoda i tehnika redukcije dimenzionalnosti podataka. Evaluacija svakog atributa u setu podataka vrši se na osnovu predloženog generičkog modela za selekciju i vrednovanje svakog pojedinačnog atributa.
U radu, biće predložen veliki broj algoritama koji se koriste u redukciji dimenzionalnosti podataka i biće izvršena njihova evaluacija na veštačkim i prirodnim skupovima podataka. Za potrebe klasifikacije koristi se veliki broj algoritama: k-najbliži susedi, Bajesovi klasifikatori, stabla odlučivanja, veštačke neuronske mreže i potporni vektori.
Eksperimentalni rezultati pokazuju da se ovim metodama mogu brzo identifikovati nevažni, redundantni atributi, kao i šum u podacima ako on postoji; kao i oni atributi koji su značajni za izučavanu pojavu. U radu se istražuje uticaj redukcije dimenzionalnosti podataka na izgradnju modela, što je naročito značajno kada imamo veliki broj atributa i veliki broj instanci, što je čest slučaj posebno u bioinformatici, analizi dokumenata, slika i glasa. U radu, biće razmatran uticaj metoda za selekciju i ekstrakciju atributa na rad svakog pojedinačnog algoritma za klasifikaciju, bez obzira da li on već ima ugrađene metode za predselekciju atributa. Ako algoritam već ima ugrađenu predselekciju atributa, biće istražena dobit od nezavisne predselekcije atributa.
Abstract (en)
The central problem of machine learning is to identify a representative set of data to construct a classification model for each individual task. In this doctoral dissertation, we investigate the problem of dimensionality reduction of data in the classification problems of artificial intelligence using different methods for selecting and extracting attributes. Methods of selection attributes include: filter, wrappers and embedded methods. The basic hypothesis is that it is possible to significantly improve the performance of the system for inductive learning of rules for classification problems, using different methods and techniques for data dimensionality reduction. The evaluation of each attribute in the data set is based on the proposed generic model for the selection and evaluation of each attribute.
This paper will be proposed a number of algorithms that are used in reducing the dimensionality of the data and their evaluation will be performed on artificial and natural data sets. For the purposes of classification is used a large number of algorithms: k-nearest neighbors, Bayesian classifiers, decision trees, artificial neural networks and support vector machine.
The experimental results show that these methods can quickly identify irrelevant or redundant attributes, as well as noise in the data, if it exists; also those attributes that are important for the studied problem. This paper will examines the impact of dimensionality reduction of data to build the model, which is especially important when we have a large number of attributes and a large number of instances, which is often the case, especially in bioinformatics, analysis of documents, images and voice. In this paper, the impact of methods for selection and extraction of the attributes will be considered for each algorithm for classification, regardless of whether they already have a built-in method for preselection of attributes. If the algorithm already has a built-in method for preselection of attributes, will be investigated the influence of an independent selection of attributes.
Authors Key words
Veštačka inteligencija,
ekstrakcija atributa, klasifikacija, metode filtriranja, metode prethodnog učenja,
Authors Key words
004.8
Type
monograph
text - theses
Text
Abstract (sr)
Središnji problem mašinskog učenja je identifikovanje reprezentativnog seta podataka na osnovu koga će se konstruisati klasifikacioni model za svaki pojedinačni zadatak. U ovoj doktorskoj disertaciji istražujemo problem redukcije dimenzionalnosti podataka u klasifikacionim problemima veštačke inteligencije korišćenjem različitih metoda za selekciju i ekstrakciju atributa. Metode selekcije atributa obuhvataju: metode filtriranja, metode prethodnog učenja i ugrađene metode. Osnovna hipoteza je da je moguće znatno poboljšati performanse sistema za induktivno učenje pravila u problemima klasifikacije, primenom različitih metoda i tehnika redukcije dimenzionalnosti podataka. Evaluacija svakog atributa u setu podataka vrši se na osnovu predloženog generičkog modela za selekciju i vrednovanje svakog pojedinačnog atributa.
U radu, biće predložen veliki broj algoritama koji se koriste u redukciji dimenzionalnosti podataka i biće izvršena njihova evaluacija na veštačkim i prirodnim skupovima podataka. Za potrebe klasifikacije koristi se veliki broj algoritama: k-najbliži susedi, Bajesovi klasifikatori, stabla odlučivanja, veštačke neuronske mreže i potporni vektori.
Eksperimentalni rezultati pokazuju da se ovim metodama mogu brzo identifikovati nevažni, redundantni atributi, kao i šum u podacima ako on postoji; kao i oni atributi koji su značajni za izučavanu pojavu. U radu se istražuje uticaj redukcije dimenzionalnosti podataka na izgradnju modela, što je naročito značajno kada imamo veliki broj atributa i veliki broj instanci, što je čest slučaj posebno u bioinformatici, analizi dokumenata, slika i glasa. U radu, biće razmatran uticaj metoda za selekciju i ekstrakciju atributa na rad svakog pojedinačnog algoritma za klasifikaciju, bez obzira da li on već ima ugrađene metode za predselekciju atributa. Ako algoritam već ima ugrađenu predselekciju atributa, biće istražena dobit od nezavisne predselekcije atributa.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.