Деректерді өндіру және деректер қоймасы
Деректерді өндіру және деректер қоймасы деректерді талдаудың өте қуатты және танымал әдістері болып табылады. Статистикаға бейім пайдаланушылар Data Mining пайдаланады. Олар деректердегі жасырын үлгілерді іздеу үшін статистикалық модельдерді пайдаланады. Деректер өндірушілері әртүрлі деректер элементтері арасындағы пайдалы қарым-қатынастарды табуға мүдделі, бұл бизнес үшін тиімді. Бірақ екінші жағынан, бизнес өлшемдерін тікелей талдай алатын деректер сарапшылары деректер қоймаларын пайдаланады.
Деректерді өндіру деректердегі білімдерді табу (KDD) ретінде де белгілі. Жоғарыда айтылғандай, бұл бастапқы деректерден бұрын белгісіз және қызықты ақпаратты алумен айналысатын информатика саласы. Деректердің экспоненциалды өсуіне байланысты, әсіресе бизнес сияқты салаларда, деректерді өндіру осы үлкен деректер байлығын іскерлік интеллектке түрлендірудің өте маңызды құралы болды, өйткені соңғы бірнеше онжылдықта үлгілерді қолмен алу мүмкін емес болып көрінді. Мысалы, ол қазіргі уақытта әлеуметтік желілерді талдау, алаяқтықты анықтау және маркетинг сияқты әртүрлі қолданбалар үшін қолданылады. Деректерді іздеу әдетте келесі төрт тапсырмамен айналысады: кластерлеу, жіктеу, регрессия және ассоциация. Кластерлеу – құрылымдалмаған деректерден ұқсас топтарды анықтау. Жіктеу – жаңа деректерге қолданылуы мүмкін оқыту ережелері және әдетте келесі қадамдарды қамтиды: деректерді алдын ала өңдеу, модельдеуді жобалау, үйрену/мүмкіндіктерді таңдау және бағалау/тексеру. Регрессия - деректерді модельдеу үшін ең аз қатесі бар функцияларды табу. Ал ассоциация айнымалылар арасындағы қатынастарды іздейді. Деректерді өндіру әдетте Wal-Mart-та келесі жылы жоғары табыс алуға көмектесетін негізгі өнімдер қандай? сияқты сұрақтарға жауап беру үшін пайдаланылады.
Жоғарыда айтылғандай, деректер қоймасы деректерді талдау үшін де пайдаланылады, бірақ пайдаланушылардың әртүрлі жиынтықтары және сәл басқа мақсатты ескере отырып. Мысалы, бөлшек сауда секторына келетін болсақ, деректер қоймасын пайдаланушылар тұтынушылар арасында қандай сатып алу түрлері танымал екеніне көбірек алаңдайды, сондықтан талдау нәтижелері тұтынушы тәжірибесін жақсарту арқылы тұтынушыға көмектесе алады. Бірақ деректер кеншілері алдымен қандай тұтынушылар өнімнің белгілі бір түрін сатып алатыны және гипотезаны тексеру үшін деректерді талдау сияқты гипотезаны болжайды. Деректерді сақтауды Нью-Йорк дүкендері Чикаго дүкендеріне қарағанда кішірек тауарлық-материалдық қорларды тезірек сататынын білу үшін бастапқыда дүкендерін бірдей көлемдегі өнімдермен сақтайтын ірі сатушы жүзеге асыра алады. Осылайша, бұл нәтижеге қарап, сатушы Нью-Йорк дүкенін Чикагодағы дүкендермен салыстырғанда кішірек өлшемде сақтай алады.
Сондықтан, анық көріп отырғаныңыздай, талдаудың бұл екі түрі қарапайым көзге бір сипатта болып көрінеді. Екеуі де тарихи деректерге негізделген пайданы ұлғайту туралы алаңдайды. Бірақ, әрине, негізгі айырмашылықтар бар. Қарапайым тілмен айтқанда, деректерді өңдеу және деректер қоймасы әртүрлі талдау түрлерін ұсынуға арналған, бірақ әр түрлі пайдаланушылар үшін. Басқаша айтқанда, Data Mining статистикалық гипотезаны қолдау үшін корреляцияларды, үлгілерді іздейді. Дегенмен, деректер қоймасы салыстырмалы түрде кеңірек сұраққа жауап береді және болашақта жақсарту жолдарын анықтау үшін деректерді сол жерден әрі қарай кесіп, кеседі.