KDD және деректер өндіру
KDD (Дерекқорлардағы білімді ашу) – цифрланған деректердің үлкен жинақтарынан пайдалы және бұрын белгісіз ақпаратты (яғни білім) алуға адамдарға көмектесетін құралдар мен теорияларды қамтитын информатика саласы. KDD бірнеше қадамдардан тұрады және олардың бірі Data Mining. Data Mining - бұл деректерден үлгілерді алу үшін белгілі бір алгоритмді қолдану. Дегенмен, KDD және Data Mining бір-бірінің орнына пайдаланылады.
KDD дегеніміз не?
Жоғарыда айтылғандай, KDD – бастапқы деректерден бұрын белгісіз және қызықты ақпаратты шығарумен айналысатын информатика саласы. KDD - бұл сәйкес әдістерді немесе әдістерді әзірлеу арқылы деректерді түсінуге тырысудың бүкіл процесі. Бұл процесс төмен деңгейлі деректерді ықшам, дерексіз және пайдалы басқа пішіндерге салыстырумен айналысады. Бұған қысқа есептерді жасау, деректерді генерациялау процесін модельдеу және болашақ жағдайларды болжай алатын болжамды үлгілерді әзірлеу арқылы қол жеткізіледі. Деректердің экспоненциалды өсуіне байланысты, әсіресе бизнес сияқты салаларда, KDD осы үлкен деректер байлығын іскерлік интеллектке түрлендірудің өте маңызды процесіне айналды, өйткені соңғы бірнеше онжылдықта үлгілерді қолмен алу мүмкін емес болып көрінді. Мысалы, қазіргі уақытта ол әлеуметтік желілерді талдау, алаяқтықты анықтау, ғылым, инвестиция, өндіріс, телекоммуникация, деректерді тазалау, спорт, ақпарат іздеу және негізінен маркетинг сияқты әртүрлі қолданбаларда қолданылады. KDD әдетте Wal-Mart-та келесі жылы жоғары пайда алуға көмектесетін негізгі өнімдер қандай деген сұрақтарға жауап беру үшін қолданылады. Бұл процесс бірнеше қадамдардан тұрады. Ол қолданба доменін және мақсатты түсінуді дамытудан, содан кейін мақсатты деректер жинағын жасаудан басталады. Одан кейін деректерді тазалау, алдын ала өңдеу, азайту және проекциялау жүреді. Келесі қадам үлгіні анықтау үшін Data Mining (төменде түсіндіріледі) пайдалану болып табылады. Ақырында, ашылған білім визуализация және/немесе түсіндіру арқылы бекітіледі.
Data Mining дегеніміз не?
Жоғарыда айтылғандай, деректерді іздеу жалпы KDD процесінің бір қадамы ғана. Қолданбаның мақсатымен анықталған екі негізгі Data Mining мақсаты бар және олар тексеру немесе табу болып табылады. Тексеру пайдаланушының деректер туралы гипотезасын тексеру болып табылады, ал ашу автоматты түрде қызықты үлгілерді табады. Деректерді іздеудің төрт негізгі міндеті бар: кластерлеу, жіктеу, регрессия және ассоциация (жинақтау). Кластерлеу – құрылымдалмаған деректерден ұқсас топтарды анықтау. Классификация - бұл жаңа деректерге қолдануға болатын оқу ережелері. Регрессия - деректерді модельдеу үшін ең аз қатесі бар функцияларды табу. Ал ассоциация айнымалылар арасындағы қатынастарды іздейді. Содан кейін деректерді іздеудің нақты алгоритмін таңдау керек. Мақсатқа байланысты сызықтық регрессия, логистикалық регрессия, шешім ағаштары және Naïve Bayes сияқты әртүрлі алгоритмдерді таңдауға болады. Содан кейін бір немесе бірнеше өкілдік пішіндерге қызығушылық үлгілері ізделеді. Соңында, модельдер болжау дәлдігі немесе түсініктілігі арқылы бағаланады.
KDD мен Datamining арасындағы айырмашылық неде?
KDD және Data Mining екі термині бір-бірінің орнына жиі қолданылғанымен, олар бір-бірімен байланысты, бірақ сәл өзгеше екі ұғымға сілтеме жасайды. KDD - бұл деректерден білімді алудың жалпы процесі, ал Data Mining - деректердегі үлгілерді анықтаумен айналысатын KDD процесінің қадамы. Басқаша айтқанда, Data Mining тек KDD процесінің жалпы мақсатына негізделген белгілі бір алгоритмді қолдану болып табылады.