logo

Datu analīze un vizualizācija ar Python

Python tiek plaši izmantots kā datu analīzes valoda, jo tā ir turīgas bibliotēkas un rīki datu pārvaldīšanai. Starp šīm bibliotēkām ir Pandas, kas atvieglo datu izpēti manipulācijas un analīzi. mēs izmantosim  Pandas  lai analizētu datu kopu, ko sauc  Valsts-dati.csv  no Kaggle. Strādājot ar šiem datiem, mēs ieviešam arī dažus svarīgus Pandas jēdzienus.

1. Uzstādīšana

Vienkāršākais veids, kā uzstādīt pandas, ir izmantot pip:

Python
pip install pandas 


vai Lejupielādējiet to no  šeit .



2. DataFrame izveide programmā Pandas

DataFrame  ir Pandas tabulai līdzīga datu struktūra, kurā dati tiek glabāti rindās un kolonnās. DataFrame var izveidot, nosūtot vairākus python sērijas objektus DataFrame klase ( pd.DataFrame() ), izmantojot  pd.Series  metodi. Šajā piemērā tiek izmantoti divi sērijas objekti: s1 kā pirmā rinda un s2 kā otrā rinda.

1. piemērs: DataFrame izveide no sērijas:

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Izvade:

Datu analīze un vizualizācija ar Python' title=

2. piemērs: DataFrame no saraksta ar pielāgotu indeksu un kolonnu nosaukumiem:

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

3. piemērs: DataFrame no vārdnīcas:

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

3. Datu importēšana, izmantojot Pandas

Pirmais solis ir nolasīt datus. Mūsu gadījumā dati tiek glabāti kā CSV (Comma-Separated Values) fails, kur katra rinda ir atdalīta ar jaunu rindiņu un katra kolonna ar komatu. Lai varētu strādāt ar datiem Python, ir nepieciešams nolasīt csv  failu  Pandas DataFrame.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Izvade:

galvu' loading='lazy' title=
(167 10)

4. DataFrames indeksēšana ar pandām

Pandas nodrošina jaudīgas indeksēšanas iespējas. Varat indeksēt DataFrames, izmantojot abus pamatojoties uz amatu un uz etiķetes metodes.

Uz pozīciju balstīta indeksācija (izmantojot iloc ):

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title= Datu analīze un vizualizācija ar Python' loading='lazy' title= Datu analīze un vizualizācija ar Python' loading='lazy' title=

Uz etiķetēm balstīta indeksācija (izmantojot loc ):

Indeksēšanu var veikt ar etiķetēm, izmantojot  pandas.DataFrame.loc  metode, kas ļauj indeksēt, izmantojot etiķetes, nevis pozīcijas.

Piemēri:

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title= Datu analīze un vizualizācija ar Python' loading='lazy' title=


Iepriekš minētais faktiski daudz neatšķiras no df.iloc[0:5:]. Tas ir tāpēc, ka, lai gan rindu etiķetēm var būt jebkura vērtība, mūsu rindu etiķetes precīzi atbilst pozīcijām. Taču kolonnu etiķetes var ievērojami atvieglot darbu ar datiem.

Piemērs:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

5. DataFrame Math ar pandām

Pandas atvieglo matemātisku darbību veikšanu ar datu rāmjos saglabātajiem datiem. Darbības, ko var veikt ar pandām, ir vektorizētas, kas nozīmē, ka tās ir ātras un tiek automātiski piemērotas visiem elementiem, neizmantojot cilpas.

Piemērs — kolonnu matemātika:

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

Statistikas funkcijas pandās:

linkedlist un masīvu saraksts

Datu kadru aprēķināšanu var veikt, izmantojot pandu rīku statistiskās funkcijas. Mēs varam izmantot tādas funkcijas kā:

  • df.sum() → vērtību summa
  • df.mean() → vidēji
  • df.max() / df.min() → maksimālās un minimālās vērtības
  • df.describe() → ātrs statistikas kopsavilkums
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title= Datu analīze un vizualizācija ar Python' loading='lazy' title=

6. Datu vizualizācija ar Pandas un Matplotlib

Pandas ir ļoti viegli lietojamas  Matplotlib jaudīga bibliotēka, ko izmanto pamata diagrammu un diagrammu izveidošanai. Izmantojot tikai dažas koda rindiņas, mēs varam vizualizēt savus datus un tos labāk izprast. Tālāk ir sniegti daži vienkārši piemēri, kas palīdzēs sākt plānošanu, izmantojot Pandas un Matplotlib.

Python
# Import the library first import matplotlib.pyplot as plt 

Histogramma

Histogramma parāda vērtību sadalījumu kolonnā.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

Kastes gabals

kastes gabals  ir noderīga, lai atklātu novirzes un izprastu datu izplatību.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

Izkliedes diagramma

izkliedes gabals  parāda attiecības starp diviem mainīgajiem.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

Saistīts raksts:

  • Pandas ievads
  • Grafiku uzzīmēšana Python
  • Darbs ar csv failiem programmā Python
  • Pandas DataFrame
  • Ievads Matplotlib
  • Histogramma — definīciju veidi Grafiks un piemēri
  • Kastes gabals
  • Izkliedes diagramma


Izveidojiet viktorīnu