Python tiek plaši izmantots kā datu analīzes valoda, jo tā ir turīgas bibliotēkas un rīki datu pārvaldīšanai. Starp šīm bibliotēkām ir Pandas, kas atvieglo datu izpēti manipulācijas un analīzi. mēs izmantosim Pandas lai analizētu datu kopu, ko sauc Valsts-dati.csv no Kaggle. Strādājot ar šiem datiem, mēs ieviešam arī dažus svarīgus Pandas jēdzienus.
1. Uzstādīšana
Vienkāršākais veids, kā uzstādīt pandas, ir izmantot pip:
Pythonpip install pandas
vai Lejupielādējiet to no šeit .
2. DataFrame izveide programmā Pandas
A DataFrame ir Pandas tabulai līdzīga datu struktūra, kurā dati tiek glabāti rindās un kolonnās. DataFrame var izveidot, nosūtot vairākus python sērijas objektus DataFrame klase ( pd.DataFrame() ), izmantojot pd.Series metodi. Šajā piemērā tiek izmantoti divi sērijas objekti: s1 kā pirmā rinda un s2 kā otrā rinda.
1. piemērs: DataFrame izveide no sērijas:
Pythonimport pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)
Izvade:
2. piemērs: DataFrame no saraksta ar pielāgotu indeksu un kolonnu nosaukumiem:
Pythondataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)
Izvade:
3. piemērs: DataFrame no vārdnīcas:
Pythondataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)
Izvade:
3. Datu importēšana, izmantojot Pandas
Pirmais solis ir nolasīt datus. Mūsu gadījumā dati tiek glabāti kā CSV (Comma-Separated Values) fails, kur katra rinda ir atdalīta ar jaunu rindiņu un katra kolonna ar komatu. Lai varētu strādāt ar datiem Python, ir nepieciešams nolasīt csv failu Pandas DataFrame.
Pythonimport pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape
Izvade:
(167 10)4. DataFrames indeksēšana ar pandām
Pandas nodrošina jaudīgas indeksēšanas iespējas. Varat indeksēt DataFrames, izmantojot abus pamatojoties uz amatu un uz etiķetes metodes.
Uz pozīciju balstīta indeksācija (izmantojot iloc ):
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]
Izvade:
Uz etiķetēm balstīta indeksācija (izmantojot loc ):
Indeksēšanu var veikt ar etiķetēm, izmantojot pandas.DataFrame.loc metode, kas ļauj indeksēt, izmantojot etiķetes, nevis pozīcijas.
Piemēri:
Python# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]
Izvade:
Iepriekš minētais faktiski daudz neatšķiras no df.iloc[0:5:]. Tas ir tāpēc, ka, lai gan rindu etiķetēm var būt jebkura vērtība, mūsu rindu etiķetes precīzi atbilst pozīcijām. Taču kolonnu etiķetes var ievērojami atvieglot darbu ar datiem.
Piemērs:
Python# Prints the first 5 rows of Time period # value df.loc[:5'child_mort']
Izvade:
5. DataFrame Math ar pandām
Pandas atvieglo matemātisku darbību veikšanu ar datu rāmjos saglabātajiem datiem. Darbības, ko var veikt ar pandām, ir vektorizētas, kas nozīmē, ka tās ir ātras un tiek automātiski piemērotas visiem elementiem, neizmantojot cilpas.
Piemērs — kolonnu matemātika:
Python# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df
Izvade:
Statistikas funkcijas pandās:
linkedlist un masīvu saraksts
Datu kadru aprēķināšanu var veikt, izmantojot pandu rīku statistiskās funkcijas. Mēs varam izmantot tādas funkcijas kā:
df.sum()→ vērtību summadf.mean()→ vidējidf.max()/df.min()→ maksimālās un minimālās vērtībasdf.describe()→ ātrs statistikas kopsavilkums
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()
Izvade:
6. Datu vizualizācija ar Pandas un Matplotlib
Pandas ir ļoti viegli lietojamas Matplotlib jaudīga bibliotēka, ko izmanto pamata diagrammu un diagrammu izveidošanai. Izmantojot tikai dažas koda rindiņas, mēs varam vizualizēt savus datus un tos labāk izprast. Tālāk ir sniegti daži vienkārši piemēri, kas palīdzēs sākt plānošanu, izmantojot Pandas un Matplotlib.
Python# Import the library first import matplotlib.pyplot as plt
Histogramma
Histogramma parāda vērtību sadalījumu kolonnā.
Pythondf['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()
Izvade:
Kastes gabals
A kastes gabals ir noderīga, lai atklātu novirzes un izprastu datu izplatību.
Pythondf = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()
Izvade:
Izkliedes diagramma
A izkliedes gabals parāda attiecības starp diviem mainīgajiem.
Pythonx = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()
Izvade:
Saistīts raksts:
- Pandas ievads
- Grafiku uzzīmēšana Python
- Darbs ar csv failiem programmā Python
- Pandas DataFrame
- Ievads Matplotlib
- Histogramma — definīciju veidi Grafiks un piemēri
- Kastes gabals
- Izkliedes diagramma