Үлкен деректерді талдаудың әдістемесі | Скачать Дипломдық жұмыс

0

Аңдатпа
Ақпаратты талдаудың қазіргі кездегі дамуының мәселелері арасында болжау міндеті өзекті тапсырмалардың бірі болып табылады. Берілген дипломдық жұмыс Rapid Miner жүйесін қолдану арқылы сатылымдарды болжау тақырыбына жазылған және үш негізгі тараудан тұрады. Бірінші тарауда Data Mining құралдарының негізгі тапсырмалары сипатталады. Екінші бөлімде болжам жасаудың негізгі әдістері, трендті модельдердің мәні және оларды болжам үшін қолдану мәселелері қарастырылды. Жұмыстың қорытынды бөлімі Rapid Miner ортасында сатылымдарды болжауды әзірлеу мен іске асыруға арналған.
Дипломдық жұмыста 72 бет түсініктеме жазба, 2 кесте, 30 сурет бар.

Аннотация
Среди проблем современного развития анализа информации задача прогнозирования является одной из наиболее актуальных. Данная дипломная работа написана на тему Прогнозирования продаж с применением системы Rapid Miner и состоит из трех основных разделов. В первой главе описываются основные задачи средств Data Mining. Во втором разделе были изучены основные методы прогнозирования, сущность трендовых моделей и их использование для прогнозов. Заключительная часть работы посвящена разработке и реализации метода для прогнозирования продаж в среде Rapid Miner.
Дипломная работа содержит 72 страниц пояснительной записки, 2 таблиц, 30 рисунков.

Abstract
Among the problems of modern development of information analysis the problem of forecasting is one of the most pressing. This diploma project is written on topic «Forecasting of sales by using a system of the Rapid Miner system» and consists of three main sections. The first chapter describes the basic tasks of Data Mining means. In the second section we studied the main methods of forecasting, the essence of trend models and their use for predictions. Final part of the work devoted to the development and implementation of method for forecasting sales in the environment of Rapid Miner.
Degree work contains 72 pages explanatory note, 2 tables, 30 drawing.

МАЗМҰНЫ

Кіріспе6
1 Data Mining. Негізгі түсініктер мен анықтамалар9
1.1 Деректерді интеллектуалды талдаудағы процесс кезеңдері және жүйе компоненттері 12
1.2 Data Mining құралдарын қолдану салалары және оларды өндірушілер 15
1.3 Data Mining тапсырмаларының классификациясы 17
1.4 Кластерлеу туралы жалпы түсінік 21
1.4.1 Кластерлеу процессі 22
1.4.2 Кластерлеу алгоритмдері 24
2 Сатылымдарды болжауға арналған тапсырмалар 32
2.1 Сауда кәсіпорындарының жұмыс істеу негіздері 32
2.2 Сатылымдарды болжау әдістері 33
2.3 Трендті модельдердің мәні және оларды болжам үшін қолдану 37
2.4 Болжамдық модельдің құру алгоритмі 42
2.5 Шешім ағаштары 43
3 Rapid Miner жүйесін қолдану арқылы сатылымдарды болжау50
3.1 Деректерді талдауға арналған Rapid Miner бағдарламасы 50
3.2 Жобаның Rapid Miner ортасында орындалуы 53
Қорытынды65
Пайдаланылған әдебиеттер тізімі68
Қосымша А 70
Қосымша Ә72

Кіріспе

Ақпараттық технологиялар дамуының нәтижесі болып тез қарқынмен өсіп келе жатқан, электрондық түрде жинақталған деректердің өте үлкен көлемі болып табылады. Бұл ретте деректер, әдетте, әртүрлі құрылымға ие болады (мәтіндер, суреттер, бейне-жазбалар, аудио, гипермәтіндік құжаттар, реляциялық деректер қоры). Ұзақ уақыт бойы жинақталған деректер жоспарлау, болжам жасау, шешім қабылдау, процесстерді бақылау кезінде құнды ақпарат болып табылатын заңдылықтарды, үрдістерді және өзара қарым-қатынастарды өзіне қамти алады. Алайда адам біртекті емес мұндай деректердің көлемін тиімді талдауға физикалық жағынан қабілетті емес.
Үлкен деректер деректерді интеллектуалды талдаудың кеңірек әдістерінің танымалдылығының өте тез өсуіне алып келді, себебі, ақпарат одан да көп бола бастады, және ол өзінің табиғаты мен мазмұны бойынша әртүрлі және кең болды. Үлкен деректер жиынымен жұмыс істеген кезде бұдан былай салыстырмалы қарапайым және түзусызықты статистика жеткілікті болмады. Сатылымдар туралы 30 немесе 40 миллион нақты жазбаларға ие бола отырып, олардың екі миллионы бір жерде жасалғаны туралы білу жеткіліксіз. Сатып алушылардың қажеттіліктерін одан да жақсырақ қанағаттандыру үшін, сол екі миллион сатылымның белгілі бір жастық топқа жатуын түсіну және олардың орташа еңбек ақысын білу қажет. Бұл бизнес-талаптар деректерді қарапайым іздеу және статистикалық талдаудан деректердің одан да қиынырақ интеллектуалды талдауына алып келді.
Математикалық статистиканың дәстүрлі әдістері ұзақ уақыттан бері деректерді талдаудың негізгі құралы рөліне үміткер болған. Бірақ олар жаңа болжамдарды синтездеуге мүмкіндік бермейді, тек алдын-ала тұжырымдалған болжамдарды растау үшін және деректердің жедел аналитикалық өңдеуінің (online analytical processing, OLAP) негізін құрайтын барлау талдауы үшін қолданылуы мүмкін. Көп жағдайда болжамды тұжырымдау болашақ шешім қабылдау үшін талдау жүргізу кезіндегі ең қиын міндет болып табылады, өйткені деректердегі барлық заңдылықтар алғашқы көргеннен айқын болмайды. Сондықтан деректерді интеллектуалды талдау технологиялары (Data mining) зерттеу үшін және ақпараттық технологиялар саласында қолдану үшін ең маңызды және перспективті тақырыптардың бірі болып қарастырылады. Data Mining мақсаты үлкен көлемді (өте үлкен) деректердің жасырын ережелері мен заңдылықтарын анықтаудан тұрады. Себебі, адамның ақыл-ойы өзімен өзі орасан зор алқаптағы әртүрлі ақпаратты қабылдау үшін бейімделмеген. Орта есеппен адам, кейбір жеке тұлғаларды есептемегенде, тіпті шағын таңдаулар ішіндегі екі-үш өзара байланысты қабылдауға қабілетті емес. Бұл жағдайда деректерді интеллектуалды талдау астарында жаңа, дұрыс және деректердің үлкен көлемі негізінде пайдалы болатын білімдерді анықтау процессі түсініледі. Мысалы, MIT Technology Review Data Mining-ті әлемді өзгертетін, дамып келе жатқан он технологияның бірі ретінде сипаттады. Бүгінгі күні
ғылым болжау технологияларын әзірлеуде бірталай алға жылжыды. Мамандарға болжаудың нейрондық желілер әдісі, айқын емес логика және т.б. әдістері өте жақсы белгілі. Сәйкес келетін бағдарламалық пакеттер әзірленген, бірақ олар тәжірибе жүзінде, өкінішке орай, қарапайым қолданушыға әрқашан қол жетімді болмайды.
Rapid Miner — Data Mining үшін құрылған құрал, оның негізгі идеясы — сарапшы өзінің жұмысын орындау кезінде бағдарлама жазбайды.
Rapid Miner нәтижелері қандай да бір алгоритм немесе алгоритм жиынының ғажайып мүмкіндіктерінен емес, көптеген жағдайда деректердің дайындық деңгейіне тәуелді болады. Rapid Miner-дағы жұмыстың шамамен 75% деректерді жинаудан тұрады, ол талдау құралдарын қолдануға дейін орындалады. Құралдарды сауатсыз пайдалану компания әлеуетін мағынасыз шашуға, кейде миллион доллар жоғалтуға әкеледі.
Дипломдық жұмыстың өзектілігі
Қазіргі кездегі кәсіпорындар ұйымда орындалатын бизнес-процесстерді және олардың құрылымдық бөлімдерінің жұмысын жақсартатын стратегияларды әрдайым іздестіреді. Сатылымдардағы болжам жасау кәсіпкерлік қызметті жетілдіру процессінде айтарлықтай маңызды рөль атқарды. Кәсіпкерліктегі болжамның мақсаты — қолайлы болжамдар жасау үшін статистикалық талдаулар мен пәндік облыстағы білімдерді біріктіру, бұл нәтижесінде, компания басқарушыларына анықталмағандық жағдайында шешім қабылдауға мүмкіндік береді. Болжам жасау бойынша жақсы сарапшы немесе маман өзінің назарын сатылымдар мен кірістер сияқты кілттік өлшемдерге орнықтыруы қажет, себебі олар жоғарыдағы басшылыққа қызықтыратын көрсеткіштер бойынша талданған статистикаға сәйкес шешімдердің ұқсас жолдарын ұсынуы қажет.
Болжам жасау әрбіреуі өзінің жеке қажеттіліктеріне ие болатын ұйымдардың барлық дерлік бөлімдерінде қолданылады. Өндірісті басқару бойынша менеджерлерге өнімге деген сұраныстың қысқа мерзімді болжамдарын, сонымен қатар жаңа өнімдерді, жаңа нарық пен сұраныстың белгісіз шарттарын ескере отырып ұзақ мерзімді болжамдарды үнемі құрастыру қажет. Маркетологтар нарықтың даму динамикасын, сонымен қатар нарық үлесі, бағалардағы заңдылық, бәсекелестік көзі сияқты оның сипаттамаларын көру үшін болжамдар жасайды. Жоғарыдағы аталғандардан басқа өнімге деген сұранысты, сатылымдардан түсетін пайданы және түгендеуді болжау үрдісіне жатқызуға болады. Ұйымның қаржылық бөлімінде де ұйымның даму тенденциялары мен болашақ кірістері туралы ақпарат алу үшін және ұйымның қызметін жоспарлау үшін болжау үрдістері қолданылады. Сондықтан болжам жасау, нарықта ұзақ уақытқа орнығу үшін, ұйымның ажырамас бөлігі болып табылады.

Зерттеу алдында қойылған мәселе — бұл болашақ кезеңде сатылымдар көлемін дәл сипаттай алатын әртүрлі модельдер мен белгілі бір әдістерді қолдана отырып болжаудың дәлдігін зерттеу.
Жұмыстың негізгі мақсаты:
Қазіргі таңдағы статистикалық болжау әдістері барлық мүмкін болатын көрсеткіштерді үлкен дәлдікпен болжауға мүмкіндік беріп отыр. Алайда, бір нәрсені еске алу керек, өмірдегі барлық жағдайға қатысты болжаудың универсал әдістерін кездестіру қиын. Болжаудың әдістерін таңдау және оның тиімділігі көптеген факторларға тәуелді, көбінесе болжаудың уақыты мен қажетті өлшеміне байланысты болып келеді.
Бұл жұмыстың мақсаты болып сатылымдарды болжаудың ең көп таралған әдістерімен танысу, сонымен қатар, болжамдық мәндерді алу процессіне көмектесетін үдерістерді және болжаудың дәлдігін өлшейтін әдістерді қарастыру болып табылады. Шешім қабылдауға көмектесетін ақпаратпен ұйым менеджерлерін қамтамасыз ету.
Жұмыстың мақсатына жету барысында алға қойылған міндеттер:
сатылымдар көлеміне әсер ететін факторламен танысу;
болжам жасаудың теориялық аспектілерін қарастыру;
сатылымдарды болжаудың әдістерімен танысу;
заманауи кезеңдегі болжам жасаудың мәнін анықтау;
трендті модельдер мәнін қарастыру;
сатылымдар көлемін болжауда трендті модельдерді қолдану әдістерін анықтау;
классификация және кластерлеу тапсырмаларын қарастыру;
Rapid Miner жүйесінде шешім ағаштарын құру;
теориялық білімдерді тәжірибе жүзінде қолдана білу.
Жұмыстың ғылыми жаңалығы:
Жоғарғы технологиялар саласындағы жетістіктер ақпаратты өңдеу, бизнез және экономикалық болжамдарды дайындау мүмкіндіктерін түбірімен өзгертті. Теория және тәжірибе жүзінде болжам жасаудағы бұл жетістіктер өсіп келе жатқан қиындықтар мен әлемдік бизнестің бәсекелестігіне деген жауап болды. Қиындықтар бизнес-шешімдерді қабылдаумен байланысты болатын қауіп-қатерлерді арттырады, бұл деректердің сенімді ақпарат көзіне ие болу қажеттілін туындатады. Әртүрлі өлшемдегі және әртүрлі қызметтегі ұйымдар қазіргі уақытта болжам жасауды экономикалық және бизнес шешімдерді қабылдаудағы құрал ретінде қолданады.
Дипломдық жұмыстың зерттеу пәні ретінде Жоғары оқу орындарында диплом жұмысын орындау ережесі қолданылды.
Әдіснамалық негізі — берілген сұрақтар бойынша отандық және шет елдік авторлардың оқу-әдістемелік құралы мен әдебиеттері, тәжірибе өту кезіндегі жинақталған білімдер, сонымен қатар, болжау тақырыбына арналған ғаламтор желісі.

Data Mining. Негізгі түсініктер мен анықтамалар

Data Mining — бұл сұраныстарға сәйкес ақпаратты қолданушыларға ұсыну, ұйымдастыру, сақтау, толықтыру және қолдау үшін арналған автоматтандырылған жүйе.
Деректерді талдау — кең ұғым. Бүгінгі таңда оның ондаған анықтамалары бар. Ең жалпы мағынада деректерді талдау — бұл көптеген параметрлері бар көп өлшемді жүйені есептен шығарумен баланысты зерттеу. Деректерді талдау барысында осы деректер арқылы сипатталатын қандай да бір көрсеткіштердің пайда болу тарихын анықтау үшін зерттеуші белгілі бір іс-әрекеттер орындайды. Әдетте, деректерді талдау үшін әр түрлі математикалық әдістер пайдаланылады.
Деректерді талдауды ақпаратты жинап болған соң, оны тек ақпаратты өңдеу ретінде ғана қарастыруға болмайды. Деректерді талдау — бұл, ең алдымен, гипотезаларды тексеру құралы және зерттеушінің міндеттердін шешу.
Адамның мүмкіндігі шектеулі танымдық қабілеттері мен Ғаламның шексіздігі арасындағы белгілі қарама — қайшылықтары бізді модельдер мен модельдеуді қолдануға итермелейді, осылайша бізді қызықтыратын нысандарды, құбылыстар мен жүйелерді зерттеу оңайға түседі.
Data Mining технологиясының мәні мен мақсатын былайша тұжырымдауға болады: бұл — айқын емес, объективті және тәжірибе жүзінде пайдалы заңдылықтары бар үлкен көлемді деректерді іздеуге арналған технология.
Айқын емес заңдылықтар — бұл ақпаратты өңдеудің стандартты әдістерімен немесе сараптау жолымен табуға болмайтын заңдылықтар.
Объективті заңдылықтың астында, әрқашан субъективті болып табылатын экспертті пікірден ерекшеленетін, толығымен шындыққа сәйкес келетін заңдылықтарды түсіну қажет.
Бұл деректерді талдау тұжырымдамасы келесіні болжайды:
Деректер нақты емес, толық емес, қарама-қайшы, әртекті, жанама, және соның өзінде үлкен көлемді болуы мүмкін; сондықтан нақты қосымшалардағы деректер түсінігі елеулі зияткерлік күш-жігерді талап етеді;
Деректерді талдау алгоритмдерінің өздері » ақыл-ой элементтеріне» ие болуы мүмкін, атап айтқанда, прецеденттер бойынша оқу қабілеті, яғни жеке бақылаулар негізінде жалпы қорытындылар жасау; мұндай алгоритмдерді құру сондай-ақ елеулі зияткерлік күш-жігерді талап етеді;
Шикі деректерді ақпаратқа өңдеу процестері, ал ақпараттар білімге қолмен орындалуы мүмкін бола алмайды, және автоматтандыруды талап етеді.
Data Mining технологиясының негізіне деректердегі көпаспектілі өзара қарым-қатынастың фрагменттерін көрсететін үлгілер (паттерндер) концепциясы салынған. Бұл үлгілер жинақы және адамға түсінікті түрде болатын деректердегі сынамаларды алуға тән заңдылықтарды білдіреді.
Іздеу шаблондары сынамаларды алудың құрылымы туралы априорлы жорамалдардың шектеусіздігімен және талданатын көрсеткіштер мәндерін бөлу түріндегі әдістермен жүргізіледі.
Data Mining технологиясының маңызды ерекшелігі ретінде ізделінетін шаблондардың стандартты еместігі және айқын еместігі болып табылады.
Басқаша айтқанда, Data Mining құралдарының OLAP құралдар мен деректерді статистикалы өңдеу құрал-жабдықтарынан келесідей ерекшеленеді: қолданушылармен өзара тәуелділікте алдын ала болжанатын тексеру орнына, олар қолда бар деректер негізінде мұндай тәуелділікті өз бетінше табуға және олардың сипаты туралы гипотеза кұруға қабілетті.
Data Mining әдістерімен анықталатын заңдылықтардың стандартты бес типтерін бөліп көрсетеді:
Қауымдастық (association) — оқиғалардың бір-бірімен байланысының жоғарғы ықтималдығы. Қауымдастықтың мысалы ретінде дүкендерде жиі бірге сатып алынатын тауарларды айтуға болады;
Реттілігі (sequence) — оқиға уақытымен байланыста болатын тізбектің жоғарғы ықтималдығы. Реттіліктің мысалы ретінде бір тауарды сатып алғаннан кейін, белгілі бір кезең ішінде басқа тауарды сатып алу ықтималдығы жоғары болатын жағдай бола алады;
Жіктеу (classification) — кандай да бір оқиға немесе нысан тиесілі болатын топты сипаттайтын белгілері болады;
Кластерлеу (clustering) — жіктеумен ұқсас заңдылық және одан айырмашылығы — топтардың өздері берілмейді, олар деректерді өңдеу процессі кезінде автоматты түрде анықталады;
Болжау (forecasting) — сол немесе өзге деректердің мінез-құлық динамикасындағы үлгілердің бар болуы. Болжаудың сипатты мысалы — қандай да бір тауар немесе қызметке деген сұраныстың маусымдық өзгеруі.
Data Mining мақсаттары. Заманауи Data Mining компьютерлік термині ақпарат алу немесе деректерді өндіру деп аударылады. Data Mining сөзімен қатар Knowledge Discovery (білім табу) және Data Warehouse (деректер қоймасы) терминдері жиі кездеседі. Data Mining-тің ажырамас бөлігі болып табылатын, жоғарыда көрсетілген терминдердің пайда болуы деректерді сақтау және өңдеу әдістері мен құралдарының дамуындағы жаңа бағдарымен байланысты. Сонымен, Data Mining мақсаты үлкен көлемді (өте үлкен) деректердің жасырын ережелері мен заңдылықтарын анықтаудан тұрады. Себебі, адамның ақыл-ойы өзімен өзі орасан зор алқаптағы әртүрлі ақпаратты қабылдау үшін бейімделмеген. Орта есеппен адам, кейбір жеке тұлғаларды есептемегенде, тіпті шағын таңдаулар ішіндегі екі-үш өзара байланысты қабылдауға қабілетті емес. Бірақ сонымен қатар ұзақ уақыт бойы деректерді талдаудың негізгі құралы рөліне үміткер болған дәстүрлі статистика да нақты өмірден алынған міндеттерді шешу кезінде жиі тоқтап қалады. Ол жиі жалған шамалар болып табылатын таңдаудың орташа сипаттамасын басқарады (клиенттің орта төлем қабілеттілігі, мұнда тәуекел немесе шығын функциясына байланысты сізге клиенттің ниеті мен жағдайын болжауды үйрену қажет; сигналдың орташа қарқындылығы, мұнда сізді сигналдың ең жоғарғы шегі мен алғышарттарының сипаттамасы қызықтырады).
Сондықтан математикалық статистика әдістері негізінен алдын-ала тұжырымдалған гипотезаны тексеру үшін пайдалы болады, ал гипотезаны анықтау кейде жеткілікті күрделі және көп еңбекті қажет ететін тапсырма болып табылады.
Data Mining — бұл жалғыз емес, білімді табудың әртүрлі әдісінің үлкен сандар жиынтығы. Әдісті таңдау жиі қолда бар деректердің түріне және басқа қандай ақпарат алуға тырысатыңызға байланысты. Мысалы кейбір әдістер: қауымдастық, классификация, кластерлеу, уақытша қатар талдауы және болжау, нейронды желілер және т.б.
Анықтамада берілген білімнің қасиетін толығырақ қарастырайық.
Білім бұрын сонды белгілі болмаған, жаңа болуы керек. Қолданушыға бұрыннан белгілі болған білімді ашуға жұмсалған күш-жігер ақталмайды. Сондықтан да құндылықты тек қана жаңа, бұрын белгісіз болған білім береді.
Білім тривиальды емес болуы керек. Талдау нәтижелері, жасырын білім дегенді құрайтын, деректердегі айқын емес, күтпеген заңдылықтарды көрсетуі тиіс. Неғұрлым қарапайым тәсілдермен алынған нәтижелер (мысалы, көзбен көрумен) Data Mining қуатты әдістерін тартуды ақтамайды.
Білім тәжірибе жүзінде пайдалы болуы керек. Табылған білім қолданылуы керек, соның ішінде сенімділігі жеткілікті жоғары дәрежеде болатын жаңа деректерде де қолданылуы тиіс. Оның пайдалылығының мәні — бұл білімдер оларды қолдану кезінде белгілі бір пайда әкелуі болып табылады.
Білім адамның түсінуіне қол жетімді болуы керек. Табылған заңдылықтар логикалық түсінікті болуы тиіс, олай болмаған жағдайда олар кездейсоқ болады деген ықтималдық бар. Сонымен қатар табылған білім адам үшін түсінікті түрде берілуі тиіс.
Data Mining-те алынған білімді ұсыну үшін модельдер қолданылады. Модель түрлері оларды құратын әдістерге тәуелді. Ең көп таралған болып табылады: ережелер, ағаштар шешімдері, кластерлер және математикалық функциялар [1].
Data Mining қолданылу аясы ештеңемен шектелмеген — қандай да бір деректер болатын жердің барлығында Data Mining керек. Көптеген кәсіпорындар тәжірибесі көрсеткендей, Data Mining қолдану арқылы 1000% қайтарым алуға болады. Мысалы, бастапқы шығындар 350-ден 750 мың долларға 10-70 есе асып түскен экономикалық әсер туралы хабар белгілі. Небәрі 4 ай ішінде ақталып шыққан 20 млн. долларлық жоба туралы мәліметтер келтіріледі. Басқа мысал — Ұлыбритания универсам желілеріне Data Mining құралын енгізу есебінен жылдық үнемдеу 700 мың доллар болды. Data Mining жетекшілер мен талдаушылар үшін олардың күнделікті қызметінде үлкен құндылықты ұсынады. Іскер адамдар Data Mining әдістерінің көмегімен олар бәсекелестік күресте елеулі артықшылықтарды алатындарын түсінді.

Деректерді интеллектуалды талдаудағы процесс кезеңдері және жүйе компоненттері

Дәстүрлі түрде деректерді интеллектуалды талдау процессінде келесі кезеңдер бөлінеді:
Нәтижесінде талдаудың негізгі мақсаттары тұжырымдалатын пәндік облысты зерттеу.
Деректерді жинау
Деректерді алдын-ала өңдеу:
Деректерді тазалау — бастапқы деректердегі кездейсоқ шулар мен карама-кайшылықтарды жою.
Деректерді интеграциялау — бірнеше мүмкін болатын ақпарат көздерінен алынған деректерді бір қоймаға біріктіру.
Деректерді түрлендіру. Бұл кезеңде деректер талдау үшін лайықты түрге түрленеді. Көп жағдайда деректерді агрегаттау, атрибуттарды дискреттеу, деректерді қысу және мөлшерін қысқарту қолданылады.
Деректерді талдау. Осы кезең шеңберінде үлгілер алу мақсатында интеллектуалды талдау алгоритмдері қолданылады.
Табылған үлгілерді интерпретациялау. Бұл кезең алынған үлгілерді визуалды түрде көруге мүмкіндік береді.
Жаңа білімді қолдану
Әдетте деректерді интеллектуалды талдау жүйелерінде келесі негізгі компоненттер көрсетіледі:
Деректер базасы, деректер қоймасы немесе басқа да ақпарат қоймасы. Бұл тазарту және интеграциялау орындау мүмкін бола алатын бір немесе бірнеше деректер базасы, деректер қоймасы, электронды кестелер, қойманың басқа да түрлері бола алады.
Деректер базасының немесе деректер қоймасының сервері. Көрсетілген сервер пайдаланушы сұранысы негізінде маңызды деректерді алу үшін жауап береді.
Білім базасы. Бұл нәтижелік үлгілерді (паттерн) қалай іздеу керектігін және пайдалылығын бағалауды көрсететін пәндік облыс туралы білім.
Білім табу қызметі. Ол деректерді интеллектуалды талдау жүйесінің ажырамас бөлігі және сипаттамалау, қауымдастықты іздеу, классификация, кластерлі талдау, ауытқуды талдау сияқты тапсырмаларға функционалды модульдер жинағын қамтиды.
Үглілерді (паттерн) бағалау модульдері. Бұл компонент үлгінің қызығушылық мөлшерін немесе пайдалылығын есептеп шығарады.
Графикалық қолданушы интерфейсі. Бұл модуль қолданушы мен деректерді интеллектуалды талдау жүйесі арасындағы байланысқа, үлгілердің әртүрлі түрдегі визуализациясына жауап береді.
Үлкен деректерді талдаудың әдістемесі
Негізінде статистика мен информатикадан (мысалы, машиналық оқыту) алынған құралдар жатқан деректер жиынын талдаудың көптеген әртүрлі әдістері бар. Берілген тізімде барлық әдістер сипатталмаған, бірақ онда әртүрлі салада көбірек сұранысқа ие болатындар келтірілген. Бірақ бұл ретте зерттеушілер жаңа әдістемелерді ойлап табу үстінде және қолданыстағыны жетілдіру жұмыстарын жалғастырып жатқанын түсіну қажет. Сонымен қатар, келтірілген әдістемелердің ішінде кейбіреуі тек қана үлкен деректерге ғана қолданылуы міндетті емес және көлемі кішірек массивтер үшін де табысты қолданылуы мүмкін (мысалы, AB тестілеу, регрессиялық талдау). Әрине, неғұрлым көлемді және алуан түрлі массив талдауға ұшыраса, шығуда соғұрлым дәл және орынды деректерді алу мүмкін болады [2].
AB testing. Бақылау сынамасы басқалармен кезекпен салыстырылатын әдістеме. Осылайша, жетістік үшін көрсеткіштердің оңтайлы комбинациясын анықтау мүмкін болады, мысалы, маркетингтік ұсынысқа тұтынушылардың ең үздік жауап реакциясы. Үлкен деректер орасан зор көп цикл жүргізуге мүмкіндік береді және, осылайша, статистикалық сенімді нәтиже алуға болады.
Association rule learning. Өзара байланыстарды, яғни, деректердің үлкен массивіндегі айнымалы шамалар арасындағы ассоциативті ережелерді анықтауға арналған әдістеме жинағы. Data mining-те қолданылады.
Classification. Белгілі бір нарық сегментінде тұтынушылардың мінез-құлқын болжауға мүмкіндік беретін әдістеме жинағы (сатып алу туралы шешімдер қабылдау, кетуі, тұтыну көлемі және т. б.). Data mining-те қолданылады.
Cluster analysis. Алдын ала белгісіз, жалпы белгілерді анықтау арқасында объектілерді топтар бойынша жіктеудің статистикалық әдісі. Data mining-те қолданылады.
Crowdsourcing. Ақпарат көзінің үлкен санынан деректерді жинау әдістемесі.
Data fusion and data integration. Әлеуметтік желілерді қолданушылардың пікірлерін талдауға және оны нақты уақыт режимінде сату нәтижелерімен салыстыруға мүмкіндік беретін әдістеме жиынтығы.
Data mining. Сатылатын тауарға немесе қызметке неғүрлым сезімтал тұтынушылар категориясын анықтауға мүмкіндік беретін, ең табысты қызметкерлердің артықшылығын анықтайтын, тұтынушылардың мінез-құлық моделін болжайтын әдістеме жинағы.
Ensemble learning. Бұл әдісте көптеген предикативті модельдер іске қосылады, осының есебінен жасалған болжамдардың сапасы артады.
Genetic algorithms. Бұл әдісте мүмкін болатын шешімдер, бірігіп және өзгеріп тұратын хромосомалар түрінде ұсынылады. Табиғи эволюция процесіндегідей мұнда неғұрлым бейімделген дарақ аман қалады.
Machine learning. Деректердің эмпирикалық талдауы негізінде өздігінен білім алу алгоритмдерін құру мақсатын көздейтін информатикадағы бағыт (тарихи түрде оған жасанды интеллект атауы бекітілген).
Natural language processing (NLP). Адамның табиғи тілін танып білетін, информатика және лингвистикадан алынған әдістер жинағы.
Network analysis. Желідегі түйіндер арасындағы байланысты талдайтын әдістеме жинағы. Әлеуметтік желілерге қолданылады, жекелеген пайдаланушылар, компаниялар, қауымдастықтар және т.б. арасындағы өзара байланысты талдауға мүмкіндік береді.
Optimization. Бір немесе бірнеше көрсеткішті жақсарту үшін, күрделі жүйелер мен процестерді өзгертуге арналған әдістердің сандық жинағы. Стратегиялық шешімдерді қабылдауда көмектеседі, мысалы, нарыққа шығарылатын өнімнің құрамы, инвестициялық талдау өткізу және т.б.
Pattern recognition. Тұтынушылардың мінез-құлық моделін болжау үшін арналған өздігінен білім алу элементі бар әдістеме жинағы.
Predictive modeling. Алдын ала берілген оқиғалар дамуындағы ықтимал сценарийдің математикалық моделін құруға мүмкіндік беретін әдістемелер жинағы. Мысалы, CRM-жүйесінің деректер базасын талдауда абоненттерді провайдерді ауыстыруға итермелейтін мүмкін шарттар.
Regression. Тәуелді және бір немесе бірнеше тәуелсіз айнымалы арасындағы өзгеру заңдылығын анықтауға арналған статистикалық әдістердің жинағы. Болжау мен болжам жасау үшін жиі қолданылады. Data mining-те қолданылады.
Sentiment analysis. Тұтынушылардың көңіл-күйін бағалау әдістемесінің негізінде адамның табиғи тілін тану технологиясы жатыр. Олар жалпы ақпараттық ағыннан қызықтыратын затпен байланысты болатын хабарларды (мысалы, тұтынушылық өнімдер) бөліп алуға мүмкіндік береді. Бұдан әрі пайымдаулар полярлығын (оң немесе теріс), эмоция дәрежесін және т.б бағалауға болады.
Signal processing. Шу фонында сигналды тану және оны одан әрі талдау мақсатын көздейтін, радиотехникадан алынған әдістеме жинағы.
Spatial analysis. Кеңістік деректер — жер топологиясы, географиялық координаттар, нысан геометриясын талдайтын, статистикадан аздап алынған әдістеме жинағы. Бұл жағдайда, үлкен деректердің қайнар көзі ретінде жиі геоақпараттық жүйелер (ГАЖ) болады.
Statistics. Пікіртерім жасап шығару және тәжірибелер жүргізуді қоса алғанда, деректерді ұйымдастыру және интерпретациялау, жинау туралы ғылым. Статистикалық әдістер сол немесе өзге де оқиғалар арасындағы өзара байланыс туралы пайымдауларды бағалау үшін жиі қолданылады.
Supervised learning. Талданатын деректер массивіндегі функционалды өзара байланысты анықтауға мүмкіндік беретін, машиналық оқыту технологиясына негізделген әдістеме жинағы.
Simulation. Күрделі жүйелердің мінез-құлықын модельдеу болжау, болжам жасау және жоспарлауда әртүрлі сценарийлер жасау үшін жиі пайдаланылады.
Time series analysis. Деректер тізбегінің уақыт ағынында қайталануын талдайтын, статистика мен сигналдарды цифрлық өңдеуден алынған әдістеме жинағы. Айқын қолданудың бірі — бағалы қағаздар нарығын немесе пациенттердің сырқатын қадағалау.
Unsupervised learning. Талданатын деректер массивінде жасырын функционалды байланысты анықтауға мүмкіндік беретін, машиналы оқыту технологиясына негізделген әдістеме жинағы. Cluster analysis-пен ортақ ерекшеліктері бар.
Visualization. Алынған нәтижелерді түсінуді жеңілдету үшін үлкен деректерді талдау нәтижелерін диаграмма немесе анимацияланған суреттер түрінде ұсынудың графикалық әдісі.

Data Mining құралдарын қолдану салалары және оларды өндірушілер

Data Mining технологиясының қолданылу аясы өте кең, ол кез келген түрдегі деректерді талдауға арналған әмбебап құралдар жиынтығы болып табылады. Оның ішінде көптеген салалар бар, соның ішіндегі негізгілері:
Маркетинг
Деректерді интеллектуалды талдау технологиялары қолданылған ең алғашқы саланың бірі маркетинг саласы болып есептеледі. Data Mining әдістерінің дамуы басталған тапсырма сатып алушылар себетін (корзинасын) талдау деп аталады. Берілген тапсырманың міндеті — сатып алушылар бірге сатып алуға ұмтылатын тауарларды анықтау. Сатып алушы корзинасын білу жарнамалық компанияларды өткізуге, сатып алушыларға жеке ұсыныстар қалыптастыруға, тауарлар қорын құру және оларды сауда залдарында орналастыру стратегиясын әзірлеу үшін керек. Сонымен қатар маркетингте қандай да бір тауарларды сәтті өткізу үшін оның мақсатты аудиториясын анықтау; кәсіпорындарға тауар қорларын құру жөнінде шешім қабылдауға көмектесетін уақытша үлгілерді зерттеу; кәсіпорындарға белгілі бір мінез-құлқы бар, әртүрлі санаттағы клиенттердің қажеттіліктер сипатын білуге мүмкіндік беретін болжау модельдерін құру; құнды клиентті жоғалтуды алдын алу және клиенттің мінезін талдау арқылы оның кету сәтін алдын ала анықтауға мүмкіндік беретін, клиенттің адалдығын болжау сияқты тапсырмалар шешіледі.
Өнеркәсіп
Бұл саладағы өте маңызды бағаттардың бірі болып мониторинг және сапаны бақылау болып табылады, мұнда талдау құралдары көмегімен жабдықтардың істен шығуын болжауға, аққаулардың пайда болуы, жөндеу жұмыстарын жоспарлауға мүмкін болады. Белгілі бір сипаттамалардың танымалдығын болжау және қандай сипаттамалар бірге тапсырысқа берілетінің білу өндірісті оңтайландыруға, оны нақты тұтынушы қажеттіліктеріне бағыттауға көмектеседі.
Медицина
Медицинада деректерді талдау сондай-ақ өте сәтті қолданылуда. Оған мысал ретінде тексеру нәтижелерінің талдауы, диагностика, емдеу әдістерінің тиімділігі мен дәрі-дәрмекті салыстыру, ауруларды талдау және олардың таралуы, жанама әсерлерді анықтау жатады. Data Mining-тің ассоциативті ережелер және тізбекті үлгілер сияқты технологиялары дәрілерді қабылдау мен олардың жанама әсерлері арасындағы байланысты анықтауда сәтті қолданылады.
Молекулалық генетика и гендік инженерия
Тәжірибелі деректерде заңдылықтарды анықтау тапсырмасы молекулалық генетика и гендік инженерияда өте өткір және онымен бірге нақты қойылған. Мұнда ол тірі ағзаның фенотиптік қасиеттерін бақылайтын, генетикалық кодтар ретінде түсінілетін белгілерді анықтау ретінде тұжырымдалады. Мұндай кодтар жүздеген, мыңдаған және одан да көп байланысқан элементтерді қамти алады. Деректердің аналитикалық талдауының нәтижесі болып, сонымен қатар, генетик-ғалымдармен табылған адам ДНК-сының тізбегіндегі өзгерістер мен әртүрлі аурулардың даму қаупі арасындағы тәуелділік болып табылады.
Қолданбалы химия
Data Mining әдістері қолданбалы химия саласында да қолданыс табады. Мұнда олардың қасиеттерін анықтайтын, қандай да бір байланыстардың химиялық құрылым ерекшелігін анықтау туралы жиі сұрақ туындайды. Әсіресе мұндай тапсырмалар, сипаттамасы жүздеген және мыңдаған құрылымдық элементтер мен олардың байланысын қамтитын күрделі химиялық байланыстарды талдау кезінде өзекті болады.
Қылмыспен күрес
Қауіпсіздікті қамтамасыз етуде Data Mining құралдары жақында ғана қолданыла бастады, бірақ қазіргі уақытта бұл салада деректердің интеллектуалды талдауының тиімділігін растайтын тәжірибелі нәтижелер алынған. Швейцариялық ғалымдармен болашақ қақтығыстарды болжау мақсатында наразылық қызметін талдау жүйесі және әлемдегі хакерлер қызметі мен кибер қатерлерді бақылау жүйесі жасалған болатын. Соңғы жүйе кибер қатерлер мен басқа ақпаратты қауіпсіздік тәуекелін болжауға мүмкіндік береді. Сонымен қатар, Data Mining әдістері несиелік карталармен болатын алаяқтарды анықтауға сәтті қолданылады.
Басқа бағдарламалар:
Қауіп қатерді талдау. Мысалы, төленген өтініштермен байланысты болатын факторлар тізбегін анықтау жолымен, сақтандырушылар міндеттемелері бойынша шығындарды азайтуы мүмкін. АҚШ-та үлкен сақтандыру компаниясы, некеде тұрған адамдардың өтініші бойынша төленген соммалар жалғыз басты адамдардың өтінішімен болған соммаларды асып түсетінін анықтаған жағдай белгілі. Компания бұл жаңа ақпаратқа отбасылы клиенттерге жеңілдіктер ұсыну саясатын қайтадан қарастыру тұрғысынан қарады.
Метеорология. Ауа райын нейрондық желілер әдісімен болжау, оның ішінде өзінен ұйымдастырылатын Кохонен картасы қолданылады.
Кадрлық саясат. Талдау құралдары қызметкерлерді басқару бөлімдеріне ең үздік кандидаттарды түйіндемелерін талдау негізінде таңдап алуға, қажет қызметке мінсіз қызметкерлердің сипаттамаларын модельдеуге көмектеседі.
Data Mining құралдары дәстүрлі түрде қымбат бағдарламалық өнімге жатады. Сондықтан күні кешеге дейін бұл технологияның негізгі тұтынушылары банктар, қаржылық және сақтандырушы компаниялар, ірі сауда кәсіпорындары болған, ал Data Mining қолданылуын талап ететін негізгі тапсырма болып несиелік және сақтандыру қатерін бағалау, маркетингтік саясат, тарифтік жоспарлар мен клиентпен жұмыстағы басқа да принциптерді әзірлеу болған. Соңғы жылдары жағдай белгілі бір өзгерістерге ұшырады: бағдарламалық қамтамасыз ету нарығында салыстармалы арзан болатын Data Mining құралдары және тіпті еркін таралатын жүйелер пайда болды, бұл осы технологияны шағын және орта бизнес кәсіпорындарына қол жетімді болатындай жасады.
Ақылы құралдар мен деректерді талдау жүйелері арасындағы көшбасшы болып SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) және StatSoft (STATISTICA Data Miner) табылады. Жетерлікті белгілі болып Angoss (Angoss KnowledgeSTUDIO), IBM(IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) және (Oracle) Oracle Data Mining шешімдері саналады.
Еркін бағдарламалық қамсыздандыруды таңдауы сондай-ақ түрлілігімен ерекшеленеді. JHepWork, KNIME, Orange, RapidMiner сияқты әмбебап талдау құралдары бар болғандай, мамандырылған құралдар да болады, мысалы Carrot 2 — мәтіндік деректерді кластерлуге және іздеу сұраныстарының нәтижелері үшін арналған FrameWork, Chemicalize.org — қолданбалы химия саласындағы шешім, NLTK (Natural Language Toolkit) — табиғи тілді өңдеуге (natural language processing) арналған құрал.

Data Mining тапсырмаларының классификациясы

Data Mining әдістері сарапшы тап болатын көптеген тапсырмаларды шешуге рұқсат береді. Оның ішіндегі негізгілері: классификация, регрессия, ассоциативті ережелерді іздеу және кластерлеу. Төменде деректерді талдаудың негізгі тапсырмаларының қысқаша сипаттамасы келтірілген.
Классификация тапсырмасы объект классын оның сипаттамасы бойынша анықтауға келтірілген. Бұл тапсырмада объект жатқызылуы мүмкін болатын класстар жиыны алдын ала белгілі болатынын атап өту қажет.
Регрессия тапсырмасы классификация тапсырмасы тәріздес, объектінің белгілі бір сипаттамасы бойынша оның параметрінің кейбір мәнін анықтауға мүмкіндік береді. Классификация тапсырмасынан айырмашылығы — параметр мәні ретінде класстардың соңғы жиыны емес, нақты сандар жиыны болады.
Ассоциация тапсырмасы. Ассоциативті ережелерді іздеудің мақсаты ретінде объект немесе оқиғалар арасындағы жиі тәуелділікті (немесе қауымдастықты) табу болып табылады. Табылған тәуелділіктер ережелер түрінде ұсынылады және оқиғалардың пайда болуын болжаумен қатар талданатын деректердің табиғатын жақсырақ түсіну үшін қолданылады.
Кластерлеу тапсырмасы барлық талданатын деректер жиынынан тәуелсіз топтарды (кластерлерді) және олардың сипаттамасын іздеу болып табылады. Бұл тапсырманың шешімі деректерді жақсырақ түсінуге көмектеседі. Сонымен қоса, біртекті объектілерді топтастыру олардың санын қысқартуға мүмкіндік береді, демек, талдауды жеңілдетеді.
Жүйелі үлгілер — уақытпен байланысқан оқиғалар арасында заңдылықты орнату, яғни тәуелділікті анықтау, егер X оқиғасы болса, онда белгіленген уақытта Y оқиғасы болады.
Ауытқуларды талдау — көбірек сипатқа ие болмайтын үлгілерді анықтау.
Аталған тапсырмалар мақсаты бойынша сипатталатын және болжанатын болып бөлінеді.
Сипатталатын (descriptive) тапсырмалар талданатын деректерді түсінуді жақсартуға көңіл бөледі. Мұнда й үлгідегі негізгі сәт — адамның қабылдауы үшін нәтижелердің жеңілдігі мен мөлдірлігі. Мүмкін, табылған заңдылықтар тек қана нақты зерттелетін деректердің ерекшелігі болады және ешбір жерде кездеспейді, бірақ бұл бәрібір пайдалы болуы мүмкін, сол себепті белгілі болуы қажет. Тапсырманың осындай түріне кластерлеу мен ассоциативті ережелерді іздеу жатады.
Болжанатын (predictive) тапсырмалардың шешімі екі кезеңге бөлінеді. Бірінші кезеңде белгілі нәтижелері бар деректер жиыны негізінде модель құрылады. Екінші кезеңде ол деректердің жаңа жиыны негізінде нәтижелерді болжау үшін қолданылады. Бұл ретте, арине, құрылған модельдер барынша дәл жұмыс істеуі қажет. Тапсырманың осы түріне классификация мен регрессия жатады. Егер оның шешім нәтижелері кейбір құбылыстардың пайда болуын болжап беруге қолданылса, онда ассоциативті ережелерді іздеу тапсырмасын да осы жерге жатқызуға болады.
Шешу тәсіліне байланысты тапсырманы мұғаліммен оқыту (supervised learning) және мұғалімсіз оқыту (unsupervised learning) деп ажыратады [3]. Мұндай атау Machine Learning (машиналы оқыту) терминінен шыққан, ағылшын әдебиеттерінде және Data Mining-тің барлық технологиясында жиі қолданылады.
Мұғаліммен оқыту (supervised learning) жағдайында деректерді талдау тапсырмасы бірнеше кезеңде шешіледі. Ең алдымен Data Mining-тің қандай да бір алгоритм көмегімен талданатын деректердің моделі — классификатор құрылады. Бұдан кейін классификатор оқытуға ұшырайды. Басқа сөзбен айтқанда, оның жұмысының сапасы тексеріледі және, егер ол қанағаттанарлықсыз болса, онда классификаторға қосымша оқыту жүргізіледі. Сондықтан талап етілетін сапа деңгейіне жеткенше дейін немесе таңдалған алгоритм деректермен дұрыс емес жұмыс істейтіні анықталғанға дейін жалғаса береді, немесе деректердің өзінде анықтауға болатын құрылымы болмайды. Тапсырманың бұл түріне классификация мен регрессия тапсырмалары жатады.
Мұғалімсіз оқыту (unsupervised learning) сипатталатын модельдерді анықтайтын тапсырмаларды біріктіреді, мысалға үлкен дүкен клиенттері жасайтын сатып алудағы заңдылықтар. Егер бұл заңдылықтар бар болса, онда модель оларды ұсыну керек және оны оқыту туралы айту орынсыз екені айқын. Осы жерден мұғалімсіз оқыту (unsupervised learning) атауы шығады. Осындай тапсырмалардың артықшылығы ретінде оларды талданатын деректер туралы қандай да бір алдын-ала білімсіз шешу мүмкіндігі болып табылады. Оларға кластерлеу және ассоциативті ережелерді іздеу жатады.
Талдау кезінде зерттелетін объектілер белгілі класстардың қайсысына жататынын анықтап алу қажет, яғни, оларды классификациялау. Мысалы, адам өзіне несие алу үшін банкка жүгінген кезде, банк қызметкері шешім қабылдауы қажет: келіп тұрған клиент несиені төлей ала ма жоқ па. Мұндай шешімдер зерттелінетін объект (бұл жағдайда — адам) туралы деректер негізінде қабылданады: оның жұмыс орны, жалақы мөлшері, жасы, жанұя құрамы және т.б. Бұл ақпаратты талдау нәтижесінде банк қызметкері адамды белгілі екі класстың біріне несие төлей алады және несие төлей алмайды жатқызуы тиіс.
Классификация тапсырмасының басқа мысалы электронды почтаны фильтрациялау болып табылады. Бұл жағдайда фильтрация бағдарламасы келіп түскен хабарламаны спам (қажет емес электронды почта) немесе хат деп жіктеу керек. Бұл шешім хабарламада белгілі бір сөздердің пайда болу жиілігі негізінде қабылданады (мысалы, қабылдаушы аты, жақсыз қаратпа сөздер, сөздер мен сөз тіркестері: сатып алу, табу, тиімді ұсыныс және т.б.)
Жалпы жағдайда классификация тапсырмаларында класс саны екіден артық болуы мүмкін. Мысалы, цифрлар бейнесін тану тапсырмасында мұндай класстар саны 10 болады (ондық санау жүйесіндегі цифр санымен). Осындай тапсырмада классификация объектісі ретінде, анықталатын цифр бейнесін ұсынатын пиксельдер матрицасы болып табылады. Бұл ретте әр пиксельдің түсі талданатын объектінің сипаттамасы болады.
Data Mining-те классификация тапсырмасын басқа параметрлер мәні негізінде талданатын объектінің бір параметрінің мәнін анықтау тапсырмасы ретінде қарастырады. Әдетте анықталатын параметрді тәуелді айнымалы деп атайды, ал оны анықтауға қатысатын параметрлер — тәуелсіз айнымалылыр. Қарастырылған мысалдарда тәуелсіз айнымалылар болып табылды:
Жалақы, жасы, бала саны және т.б.;
Белгілі сөздер жиілігі;
Матрица пикселінің түс мәні.
Осы мысалдарда тәуелді айнымалылар болды:
Клиенттің несие төлеу қабілеті (бұл айнымалының мүмкін мәні иә және жоқ);
Хабарлама түрі (бұл айнымалының мүмкін мәні spam және mail);
Бейне цифрі (бұл айнымалының мүмкін мәні 0, 1, …, 9).
Барлық қарастырылған мысалдарда тәуелсіз айнымалы мәндерді соңғы мәндер жиынынан: {иә, жоқ}, {spam, mail}, {0, 1,…, 9} қабылдағанына көңіл аудару керек. Егер тәуелсіз және тәуелді айнымалылардың мәні нақты сандар болса, онда тапсырма регрессия тапсырмасы деп аталады.
Регрессия тапсырмасына мысал ретінде банктың клиентке беруі мүмкін болатын несие соммасын анықтау тапсырмасын жатқызуға болады.
Классификация және регрессия тапсырмалары екі кезеңде шешіледі [4]. Біріншіде оқытылатын таңдау бөлінеді. Оған тәуелсіз және тәуелді айнымалылардың мәні белгілі болатын объектілер кіреді. Осыған дейін сипатталған мысалдарда мұндай оқытылатын таңдау ретінде бола алады:
Бұрындары әртүрлі соммаға несие берілген клиенттер туралы ақпарат, және оларды өтеу туралы ақпарат;
Спам және хат деп қолмен жіктелген хабарламалар;
Цифр бейнесінің бұрындары танылған матрицасы.
Оқытылатын таңдау негізінде тәуелді айнымалының мәнін анықтау моделі құрылады. Оны жиі классификация немесе регрессия функциясы деп атайды. Оқытылатын таңдауға барынша дәл функцияны алу үшін келесі негізгі талаптар қойылады:
Таңдауға кіретін объектілер саны жеткілікті үлкен болуы керек. Неғұрлым объектілер көп болса, соғұрлым оның негізінде классификация немесе регрессия функциясын құру дәлірек болады;
Таңдауға классификация тапсырмасы кезінде мүмкін болатын барлық класстарды немесе регрессия тапсырмасы кезінде мәннің барлық облысын ұсынатын объектілер кіруі керек;
Классификация тапсырмасында әрбір классқа немесе регрессия тапсырмасында облыстың әрбір интервалына таңдау жетерліктей объектілер санын қамту керек.
Екінші кезеңде құрылған моделді талданатын объектілерге (тәуелді айнымалының анықталмаған мәні бар объектілер) қолданады.
Классификация және регрессия тапсырмаларында геометриялық түсініктеме (интерпретация) бар. Оны екі өлшемді кеңістікте көруге мүмкіндік беретін, … жалғасы

Дереккөз: https://stud.kz