DATU ANALĪZE UN VIZUALIZĀCIJA AR PYTHON

Python tiek plaši izmantots kā datu analīzes valoda, jo tā ir turīgas bibliotēkas un rīki datu pārvaldīšanai. Starp šīm bibliotēkām ir Pandas, kas atvieglo datu izpēti manipulācijas un analīzi. mēs izmantosim Pandas lai analizētu datu kopu, ko sauc Valsts-dati.csv no Kaggle. Strādājot ar šiem datiem, mēs ieviešam arī dažus svarīgus Pandas jēdzienus.

1. Uzstādīšana

Vienkāršākais veids, kā uzstādīt pandas, ir izmantot pip:

Python pip install pandas

vai Lejupielādējiet to no šeit .

2. DataFrame izveide programmā Pandas

A DataFrame ir Pandas tabulai līdzīga datu struktūra, kurā dati tiek glabāti rindās un kolonnās. DataFrame var izveidot, nosūtot vairākus python sērijas objektus DataFrame klase ( pd.DataFrame() ), izmantojot pd.Series metodi. Šajā piemērā tiek izmantoti divi sērijas objekti: s1 kā pirmā rinda un s2 kā otrā rinda.

1. piemērs: DataFrame izveide no sērijas:

Python

import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)

Izvade:

Datu analīze un vizualizācija ar Python' title=

2. piemērs: DataFrame no saraksta ar pielāgotu indeksu un kolonnu nosaukumiem:

Python dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)

Izvade:

Datu analīze un vizualizācija ar Python' loading='lazy' title=

3. piemērs: DataFrame no vārdnīcas:

Python dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)

Izvade:

3. Datu importēšana, izmantojot Pandas

Pirmais solis ir nolasīt datus. Mūsu gadījumā dati tiek glabāti kā CSV (Comma-Separated Values) fails, kur katra rinda ir atdalīta ar jaunu rindiņu un katra kolonna ar komatu. Lai varētu strādāt ar datiem Python, ir nepieciešams nolasīt csv failu Pandas DataFrame.

Python

import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape

Izvade:

(167 10)

4. DataFrames indeksēšana ar pandām

Pandas nodrošina jaudīgas indeksēšanas iespējas. Varat indeksēt DataFrames, izmantojot abus pamatojoties uz amatu un uz etiķetes metodes.

Uz pozīciju balstīta indeksācija (izmantojot iloc ):

Python

# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]

Izvade:

Uz etiķetēm balstīta indeksācija (izmantojot loc ):

Indeksēšanu var veikt ar etiķetēm, izmantojot pandas.DataFrame.loc metode, kas ļauj indeksēt, izmantojot etiķetes, nevis pozīcijas.

Piemēri:

Python

# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]

Izvade:

Iepriekš minētais faktiski daudz neatšķiras no df.iloc[0:5:]. Tas ir tāpēc, ka, lai gan rindu etiķetēm var būt jebkura vērtība, mūsu rindu etiķetes precīzi atbilst pozīcijām. Taču kolonnu etiķetes var ievērojami atvieglot darbu ar datiem.

Piemērs:

Python # Prints the first 5 rows of Time period # value df.loc[:5'child_mort']

Izvade:

5. DataFrame Math ar pandām

Pandas atvieglo matemātisku darbību veikšanu ar datu rāmjos saglabātajiem datiem. Darbības, ko var veikt ar pandām, ir vektorizētas, kas nozīmē, ka tās ir ātras un tiek automātiski piemērotas visiem elementiem, neizmantojot cilpas.

Piemērs — kolonnu matemātika:

Python

# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df

Izvade:

Statistikas funkcijas pandās:

linkedlist un masīvu saraksts

Datu kadru aprēķināšanu var veikt, izmantojot pandu rīku statistiskās funkcijas. Mēs varam izmantot tādas funkcijas kā:

df.sum() → vērtību summa
df.mean() → vidēji
df.max() / df.min() → maksimālās un minimālās vērtības
df.describe() → ātrs statistikas kopsavilkums

Python

# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()

Izvade:

6. Datu vizualizācija ar Pandas un Matplotlib

Pandas ir ļoti viegli lietojamas Matplotlib jaudīga bibliotēka, ko izmanto pamata diagrammu un diagrammu izveidošanai. Izmantojot tikai dažas koda rindiņas, mēs varam vizualizēt savus datus un tos labāk izprast. Tālāk ir sniegti daži vienkārši piemēri, kas palīdzēs sākt plānošanu, izmantojot Pandas un Matplotlib.

Python # Import the library first import matplotlib.pyplot as plt

Histogramma

Histogramma parāda vērtību sadalījumu kolonnā.

Python

df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()

Izvade:

Kastes gabals

A kastes gabals ir noderīga, lai atklātu novirzes un izprastu datu izplatību.

Python

df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()

Izvade:

Izkliedes diagramma

A izkliedes gabals parāda attiecības starp diviem mainīgajiem.

Python

x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()

Izvade:

Saistīts raksts:

Pandas ievads
Grafiku uzzīmēšana Python
Darbs ar csv failiem programmā Python
Pandas DataFrame
Ievads Matplotlib
Histogramma — definīciju veidi Grafiks un piemēri
Kastes gabals
Izkliedes diagramma

Izveidojiet viktorīnu

Datu analīze un vizualizācija ar Python

1. Uzstādīšana

2. DataFrame izveide programmā Pandas

3. Datu importēšana, izmantojot Pandas

4. DataFrames indeksēšana ar pandām

5. DataFrame Math ar pandām

6. Datu vizualizācija ar Pandas un Matplotlib