CRISP-DM apzīmē starpnozaru standarta procesu datu ieguvei. CRISP-DM metodoloģija nodrošina strukturētu pieeju datu ieguves projekta plānošanai. Tā ir stabila un labi pārbaudīta metodika. Mēs nepretendējam uz īpašumtiesībām uz to. Mēs to neizdomājām. Mēs esam tās spēcīgā praktiskuma, elastības un lietderības pārveidotāji, izmantojot analīzi, lai atrisinātu biznesa problēmas. Tas ir zelta pavediens, kas vijas cauri gandrīz katrai klientu tikšanās reizei.
Šis modelis ir idealizēta notikumu secība. Praksē daudzus uzdevumus var veikt citā secībā, un bieži vien būs jāatgriežas pie iepriekšējiem uzdevumiem un jāatkārto noteiktas darbības. Modelis nemēģina uztvert visus iespējamos maršrutus, izmantojot datu ieguves procesu.
Kā CRISP palīdz?
CRISP DM nodrošina ceļvedi, labāko praksi un struktūras labākiem un ātrākiem datu ieguves izmantošanas rezultātiem, tāpēc tas palīdz uzņēmumam sekot līdzi datu ieguves projekta plānošanas un īstenošanas laikā.
CRISP-DM fāzes
CRISP-DM sniedz pārskatu par datu ieguves dzīves ciklu kā procesa modeli. Dzīves cikla modelis sastāv no sešām fāzēm ar bultiņām, kas norāda vissvarīgākās un biežākās atkarības starp fāzēm. Fāžu secība nav stingra. Un lielākā daļa projektu virzās uz priekšu un atpakaļ no vienas fāzes pēc vajadzības. CRISP-DM modelis ir elastīgs un to var viegli pielāgot.
Piemēram, ja jūsu organizācijas mērķis ir atklāt nelikumīgi iegūtu līdzekļu legalizēšanu, jūs, iespējams, izsijāsit lielu datu apjomu bez konkrēta modelēšanas mērķa. Modelēšanas vietā jūsu darbs koncentrēsies uz datu izpēti un vizualizāciju, lai atklātu aizdomīgus finanšu datu modeļus. CRISP-DM ļauj izveidot datu ieguves modeli, kas atbilst jūsu vajadzībām.
Tajā ir iekļauti projekta tipisko posmu apraksti, ar katru posmu saistītie uzdevumi un skaidrojums par saistību starp šiem uzdevumiem.
1. fāze: biznesa izpratne
Pirmais CRISP-DM procesa posms ir izpratne par to, ko vēlaties paveikt no biznesa perspektīvas. Jūsu organizācijai var būt konkurējoši mērķi un ierobežojumi, kas ir pareizi jāsabalansē. Šī procesa posma mērķis ir atklāt svarīgus faktorus, kas ietekmē projekta rezultātu. Šī soļa neievērošana var nozīmēt, ka ir jāpieliek daudz pūļu, lai radītu pareizās atbildes uz nepareizajiem jautājumiem.
Kādi ir vēlamie projekta rezultāti?
Novērtējiet pašreizējo situāciju
chown komanda
Tas ietver detalizētāku faktu noskaidrošanu par resursiem, ierobežojumiem, pieņēmumiem un citiem faktoriem, kas jums jāņem vērā, nosakot datu analīzes mērķi un projekta plānu.
- Personāls (biznesa eksperti, datu eksperti, tehniskais atbalsts, datu ieguves eksperti)
- Dati (fiksēti izraksti, piekļuve tiešajiem, noliktavas vai darbības datiem)
- Skaitļošanas resursi (aparatūras platformas)
- Programmatūra (datu ieguves rīki, cita atbilstoša programmatūra)
- Attiecīgās biznesa terminoloģijas glosārijs ir daļa no projektam pieejamās biznesa izpratnes. Šī glosārija izveide ir noderīgs “zināšanu iegūšanas” un izglītojošs uzdevums.
- Datu ieguves terminoloģijas glosārijs ir ilustrēts ar piemēriem, kas attiecas uz uzņēmējdarbības problēmu.
Nosakiet datu ieguves mērķus
Uzņēmējdarbības mērķis norāda mērķus biznesa terminoloģijā. Datu ieguves mērķis nosaka projekta mērķus tehniskā izteiksmē. Piemēram, uzņēmējdarbības mērķis varētu būt palielināt kataloga pārdošanu esošajiem klientiem. Datu ieguves mērķis varētu būt paredzēt, cik logrīkus klients iegādāsies, ņemot vērā viņa pirkumus pēdējo trīs gadu laikā, demogrāfisko informāciju (vecumu, algu, pilsētu utt.) un preces cenu.
Izstrādāt projekta plānu
Aprakstiet plānoto datu ieguves mērķu un biznesa mērķu sasniegšanas plānu. Jūsu plānā ir jānorāda darbības, kas jāveic pārējā projekta laikā, tostarp sākotnējā rīku un metožu izvēle.
1. Projekta plāns: Uzskaitiet projektā izpildāmos posmus, norādot to ilgumu, nepieciešamos resursus, ievadi, rezultātus un atkarības. Ja iespējams, mēģiniet skaidri izcelt liela mēroga iterācijas datu ieguves procesā, piemēram, modelēšanas un novērtēšanas fāzes atkārtojumus.
Kā daļu no projekta plāna ir svarīgi analizēt laika grafiku un risku atkarības. Šo analīžu rezultātus skaidri atzīmējiet projekta plānā, ideālā gadījumā ar darbībām un ieteikumiem, ja riski izpaužas. Izlemiet, kura vērtēšanas stratēģija tiks izmantota novērtēšanas posmā.
Jūsu projekta plāns būs dinamisks dokuments. Katra posma beigās jūs pārskatīsit progresu un sasniegumus un attiecīgi atjaunināsiet projekta plānu. Konkrēti šo atjauninājumu pārskatīšanas punkti jāiekļauj projekta plānā.
2. Sākotnējais rīku un metožu novērtējums: Pirmā posma beigās jums jāveic sākotnējais rīku un metožu novērtējums. Piemēram, jūs izvēlaties datu ieguves rīku, kas atbalsta dažādas metodes dažādos procesa posmos. Ir svarīgi novērtēt rīkus un paņēmienus procesa sākumā, jo rīku un paņēmienu izvēle var ietekmēt visu projektu.
2. fāze: datu izpratne
Otrajā CRISP-DM procesa fāzē ir jāiegūst projekta resursos norādītie dati. Šī sākotnējā apkopošana ietver datu ielādi, ja tas ir nepieciešams datu izpratnei. Piemēram, ja izmantojat īpašu rīku datu izpratnei, ir pilnīgi saprātīgi ielādēt savus datus šajā rīkā. Ja iegūstat vairākus datu avotus, jums jāapsver, kā un kad tos integrēt.
Aprakstiet datus
regresijas testēšana programmatūras testēšanā
Izpētiet iegūto datu 'bruto' vai 'virsmas' īpašības un ziņojiet par rezultātiem.
Izpētiet datus
Šajā posmā jūs risināsiet datu ieguves jautājumus, izmantojot vaicājumu, datu vizualizācijas un ziņošanas metodes. Tie var ietvert:
- Galveno atribūtu sadale
- Attiecības starp pāriem vai nelielu atribūtu skaitu
- Vienkāršu agregāciju rezultāti
- Nozīmīgu apakšpopulāciju īpašības
- Vienkāršas statistiskās analīzes
Šīs analīzes var tieši risināt jūsu datu ieguves mērķus. Tie var sniegt ieguldījumu vai pilnveidot datu aprakstu un kvalitātes ziņojumus un iekļauties pārveidošanas un citos datu sagatavošanas posmos, kas nepieciešami turpmākai analīzei.
Pārbaudiet datu kvalitāti
mvc pavasara karkasā
Pārbaudiet datu kvalitāti, risinot tādus jautājumus kā:
- Vai dati ir pilnīgi, vai arī tie aptver visus nepieciešamos gadījumus?
- Vai tas ir pareizi, vai tajā ir kļūdas, un, ja ir kļūdas, cik bieži tās ir?
- Vai datos trūkst vērtību? Ja jā, kā tie tiek attēloti, kur tie rodas un cik bieži tie ir?
Datu kvalitātes pārskats
Uzskaitiet datu kvalitātes pārbaudes rezultātus. Ja pastāv kvalitātes problēmas, iesakiet iespējamos risinājumus. Datu kvalitātes problēmu risinājumi parasti lielā mērā ir atkarīgi no datiem un uzņēmējdarbības zināšanām.
3. fāze: datu sagatavošana
Šajā projekta posmā jūs izlemjat, kādus datus izmantosiet analīzei. Kritēriji, kurus varat izmantot, lai pieņemtu šo lēmumu, ietver datu atbilstību jūsu datu ieguves mērķiem, datu kvalitāti un tehniskus ierobežojumus, piemēram, datu apjoma vai datu tipu ierobežojumus.
Notīriet savus datus
Šis uzdevums ietver datu kvalitātes paaugstināšanu līdz līmenim, kas nepieciešams jūsu atlasītajām analīzes metodēm. Tas var ietvert tīru datu apakškopu atlasi, piemērotu noklusējuma vērtību ievietošanu vai vērienīgākus paņēmienus, piemēram, trūkstošo datu novērtēšanu, izmantojot modelēšanu.
Izveidojiet nepieciešamos datus
Šis uzdevums ietver konstruktīvas datu sagatavošanas darbības, piemēram, atvasinātu atribūtu, veselu jaunu ierakstu vai esošo atribūtu vērtību pārveidošanu.
Integrēt datus
Šīs metodes apvieno informāciju no vairākām datu bāzēm, tabulām vai ierakstiem, lai izveidotu jaunus ierakstus vai vērtības.
4. fāze: modelēšana
Izvēlieties modelēšanas paņēmienu: kā pirmo soli jums būs jāizvēlas pamata modelēšanas tehnika, ko izmantosit. Lai gan, iespējams, jau esat izvēlējies rīku biznesa izpratnes posmā, šajā posmā jūs atlasīsit konkrētu modelēšanas paņēmienu, piemēram, lēmumu koka veidošana ar C5.0 vai neironu tīklu ģenerēšana ar atpakaļizplatīšanu. Ja tiek izmantotas vairākas metodes, veiciet šo uzdevumu katrai tehnikai atsevišķi.
Izveidojiet testa dizainu
Pirms modeļa izveides jums ir jāģenerē procedūra vai mehānisms, lai pārbaudītu modeļa kvalitāti un derīgumu. Piemēram, uzraudzītos datu ieguves uzdevumos, piemēram, klasifikācijā, kļūdu īpatsvaru parasti izmanto kā datu ieguves modeļu kvalitātes rādītājus. Tāpēc jūs parasti sadalāt datu kopu vilcienu un testa kopās, veidojat modeli vilcienu komplektā un novērtējat tā kvalitāti, izmantojot atsevišķu testa kopu.
Veidot modeli
np vidējais
Palaidiet modelēšanas rīku sagatavotajā datu kopā, lai izveidotu vienu vai vairākus modeļus.
Novērtējiet modeli
Interpretējiet modeļus atbilstoši jūsu domēna zināšanām, datu ieguves panākumu kritērijiem un vēlamajam testa noformējumam. Novērtējiet modelēšanas un atklāšanas metožu pielietošanas panākumus un vēlāk sazinieties ar biznesa analītiķiem un domēna ekspertiem, lai apspriestu datu ieguves rezultātus uzņēmējdarbības kontekstā. Šajā uzdevumā tiek ņemti vērā tikai modeļi, savukārt novērtēšanas posmā tiek ņemti vērā arī visi pārējie projekta laikā iegūtie rezultāti.
Šajā posmā jums vajadzētu sarindot modeļus un novērtēt tos atbilstoši vērtēšanas kritērijiem. Šeit, cik vien iespējams, ir jāņem vērā uzņēmējdarbības mērķi un veiksmes kritēriji. Lielākajā daļā datu ieguves projektu viena metode tiek izmantota vairāk nekā vienu reizi, un datu ieguves rezultāti tiek ģenerēti ar vairākām dažādām metodēm.
5. fāze: Novērtēšana
Novērtējiet rezultātus: iepriekšējās novērtēšanas darbības bija saistītas ar tādiem faktoriem kā modeļa precizitāte un vispārīgums. Šīs darbības laikā jūs novērtēsit, cik lielā mērā modelis atbilst jūsu biznesa mērķiem, un mēģināsit noteikt, vai ir kāds biznesa iemesls, kāpēc šis modelis ir nepilnīgs. Vēl viena iespēja ir pārbaudīt modeli testa lietojumprogrammās reālajā lietojumprogrammā, ja to atļauj laika un budžeta ierobežojumi. Novērtēšanas fāze ietver arī citu datu ieguves rezultātu novērtēšanu, ko esat ģenerējis. Datu ieguves rezultāti ietver modeļus, kas noteikti ir saistīti ar sākotnējiem uzņēmējdarbības mērķiem, un visus citus atklājumus, kas ne vienmēr ir saistīti ar sākotnējiem uzņēmējdarbības mērķiem, bet var arī atklāt papildu izaicinājumus, informāciju vai ieteikumus turpmākajiem virzieniem.
Pārskatīšanas process
Šobrīd iegūtie modeļi šķiet apmierinoši un apmierina biznesa vajadzības. Tagad ir lietderīgi veikt rūpīgāku datu ieguves iesaistes pārskatu, lai noteiktu, vai ir kāds svarīgs faktors vai uzdevums, kas kaut kādā veidā ir ticis neievērots. Šis pārskats aptver arī kvalitātes nodrošināšanas jautājumus. Piemēram: vai mēs pareizi izveidojām modeli? Vai mēs izmantojām tikai tos atribūtus, kurus mums ir atļauts izmantot un kas ir pieejami turpmākai analīzei?
Nosakiet nākamās darbības
Tagad jūs izlemjat, kā rīkoties atkarībā no novērtējuma rezultātiem un procesa pārskatīšanas. Vai pabeidzat šo projektu un pārejat uz izvietošanu, uzsākat turpmākas iterācijas vai iestatāt jaunus datu ieguves projektus? Jums vajadzētu arī izvērtēt savus atlikušos resursus un budžetu, kas var ietekmēt jūsu lēmumus.
6. posms: Izvēršana
Plānojiet izvietošanu: izvietošanas posmā jūs ņemsit vērā novērtējuma rezultātus un noteiksiet to izvietošanas stratēģiju. Ja ir noteikta vispārīga procedūra attiecīgā modeļa(-u) izveidei, šī procedūra šeit ir dokumentēta vēlākai izvietošanai. Ir lietderīgi apsvērt ieviešanas veidus un līdzekļus biznesa izpratnes posmā, jo izvietošanai ir izšķiroša nozīme projekta panākumos. Šajā gadījumā paredzamā analīze palīdz uzlabot jūsu uzņēmuma darbību.
Plānot uzraudzību un apkopi
Uzraudzība un uzturēšana ir svarīgi jautājumi, ja datu ieguves rezultāts kļūst par ikdienas biznesa un tā vides sastāvdaļu. Rūpīga uzturēšanas stratēģijas sagatavošana palīdz izvairīties no nevajadzīgi ilgiem datu ieguves rezultātu nepareizas izmantošanas periodiem. Projektam ir nepieciešams detalizēts uzraudzības procesa plāns, lai uzraudzītu datu ieguves rezultāta(-u) izvietošanu. Šajā plānā ir ņemts vērā konkrētais izvietošanas veids.
Sagatavot gala ziņojumu
Projekta beigās jūs uzrakstīsiet gala ziņojumu. Atkarībā no izvietošanas plāna šis pārskats var būt tikai projekta un tā pieredzes kopsavilkums (ja tas jau nav dokumentēts kā notiekoša darbība), vai arī tas var būt galīgs un visaptverošs datu ieguves rezultāta izklāsts.
Pārskatiet projektu
anotācijas pavasara zābakā
Novērtējiet, kas bija pareizi un nepareizi, kas tika izdarīts labi un kas ir jāuzlabo.