Apache Spark apmācība sniedz pamata un uzlabotas Spark koncepcijas. Mūsu Spark apmācība ir paredzēta iesācējiem un profesionāļiem.
Spark ir vienots analītikas dzinējs liela mēroga datu apstrādei, tostarp iebūvēti moduļi SQL, straumēšanai, mašīnmācībai un grafiku apstrādei.
Mūsu Spark apmācība ietver visas tēmas par Apache Spark ar Spark ievadu, Spark instalāciju, Spark arhitektūru, Spark komponentiem, RDD, Spark reāllaika piemēriem un tā tālāk.
Kas ir Spark?
Apache Spark ir atvērtā pirmkoda klasteru skaitļošanas sistēma. Tās galvenais mērķis ir apstrādāt reāllaika ģenerētos datus.
Spark tika izveidots Hadoop MapReduce augšpusē. Tas tika optimizēts darbam atmiņā, savukārt alternatīvas pieejas, piemēram, Hadoop's MapReduce, ieraksta datus uz datora cietajiem diskiem un no tiem. Tātad Spark apstrādā datus daudz ātrāk nekā citas alternatīvas.
Apache Spark vēsture
Spark uzsāka Matei Zaharia UC Berkeley's AMPLab 2009. gadā. Tas tika atvērts 2010. gadā saskaņā ar BSD licenci.
2013. gadā projektu iegādājās Apache Software Foundation. 2014. gadā Spark parādījās kā augstākā līmeņa Apache projekts.
Apache Spark iezīmes
Ātri | - Tas nodrošina augstu veiktspēju gan pakešdatiem, gan straumēšanas datiem, izmantojot vismodernāko DAG plānotāju, vaicājumu optimizētāju un fiziskās izpildes dzinēju.
Viegli izmantot | - Tas atvieglo lietojumprogrammas rakstīšanu Java, Scala, Python, R un SQL. Tas nodrošina arī vairāk nekā 80 augsta līmeņa operatorus.
Vispārīgums | - Tas nodrošina bibliotēku kolekciju, tostarp SQL un DataFrames, MLlib mašīnmācībai, GraphX un Spark Streaming.
Viegls | - Tas ir viegls unificēts analītikas dzinējs, ko izmanto liela mēroga datu apstrādei.
Skrien visur | - To var viegli palaist Hadoop, Apache Mesos, Kubernetes, atsevišķi vai mākonī.
Spark lietošana
Datu integrācija: | Sistēmu ģenerētie dati nav pietiekami konsekventi, lai tos apvienotu analīzei. Lai iegūtu konsekventus datus no sistēmām, mēs varam izmantot tādus procesus kā izvilkšana, pārveidošana un ielāde (ETL). Spark tiek izmantots, lai samazinātu šim ETL procesam nepieciešamās izmaksas un laiku.
Straumes apstrāde: | Vienmēr ir grūti apstrādāt reāllaika ģenerētos datus, piemēram, žurnālfailus. Spark ir pietiekami spējīgs vadīt datu straumes un atsakās no potenciāli krāpnieciskām darbībām.
Mašīnmācība: | Mašīnmācīšanās pieejas kļūst īstenojamākas un arvien precīzākas, jo palielinās datu apjoms. Tā kā spark spēj saglabāt datus atmiņā un var ātri izpildīt atkārtotus vaicājumus, tas atvieglo darbu ar mašīnmācīšanās algoritmiem.
Interaktīvā analīze: | Spark spēj ātri ģenerēt atbildi. Tātad, tā vietā, lai palaistu iepriekš definētus vaicājumus, mēs varam apstrādāt datus interaktīvi.
Priekšnoteikums
Pirms apgūt Spark, jums ir jābūt pamatzināšanām par Hadoop.
Auditorija
Mūsu Spark apmācība ir izstrādāta, lai palīdzētu iesācējiem un profesionāļiem.
Problēmas
Mēs garantējam, ka šajā Spark apmācībā jūs neatradīsit nekādas problēmas. Tomēr, ja ir kāda kļūda, lūdzu, publicējiet problēmu saziņas veidlapā.