Python: la libreria Pandas

Cos’è la libreria Pandas?

Pandas è uno delle libreire più popolari in Python ed è ampiamente utilizzata per la manipolazione dei dati. È molto potente e versatile poichè rende la pulizia e la gestione dei dati molto più semplice e agevole.
Pandas rende python uno dei migliori linguaggi di programmazione per la scienza e l’analisi dei dati.

Pandas ha molte funzioni essenziali per la gestione e la manipolazione dei dati, per esempio:

Creare un set di dati strutturato simile al dataframe di R e al foglio di calcolo di Excel.
Lettura di dati da varie fonti come CSV, TXT, XLSX, WEB, database SQL, R ecc.
Selezione di righe o colonne particolari dal set di dati
Disposizione dei dati in ordine crescente o decrescente
Selezione dei dati in base ad alcune condizioni
Riepilogo dei dati per variabile di classificazione
Analisi delle serie temporali
Unione e concatenazione di set di dati
Iterare sulle righe del set di dati
Scrittura o esportazione di dati in formato CSV o Excel

Set di dati:

Funzioni importanti di Pandas da ricordare

Estrarre i nomi delle colonne	df.columns
Selezionare le prime 2 righe	df.iloc[:2]
Selezionare le prime 2 colonne	df.iloc[:,:2]
Selezionare le colonne per nome	df.loc[:,[“col1″,”col2”]]
Selezione casuale n. di righe	df.sample(n = 10)
Selezionare una frazione di righe casuali	df.sample(frac = 0.2)
Rinominare le variabili	df.rename( )
Selezione di una colonna come indice	df.set_index()
Rimozione di righe o colonne	df.drop( )
Ordinamento dei valori	df.sort_values( )
Variabili di raggruppamento	df.groupby( )
Selezione	df.query( )
Trovare i valori mancanti	df.isnull( )
Eliminare i valori mancanti	df.dropna( )
Rimozione dei duplicati	df.drop_duplicates()
Gestire le variabili categoriali	pd.get_dummies( )
classificare	df.rank( )
Somma cumulativa	df.cumsum()
quantili	df.quantile( )
Selezione di variabili numeriche	df.select_dtypes()
Concatenazione di due frame di dati	pd.concat()
Unione sulla base di una variabile comune	pd.merge()

Ti potrebbe interessare anche: Web scraping con Python: estraiamo i dati Covid

Importare la libreria Pandas

Prima di poter utilizzare la libreria, è necessario caricarla in memoria, attraverso il seguente codice:

import pandas as pd

Il “pd” è un alias o un’abbreviazione che verrà utilizzata come scorciatoia per accedere o chiamare le funzioni di Pandas.

Importazione del set di dati

Per leggere o importare dati da file CSV, puoi utilizzare la funzione read_csv(). Nella funzione, è necessario specificare la posizione del file CSV.

In questo esempio, utilizzeremo un file di prova, in cui troviamo i dati del reddito pro-capite negli USA, dettagliato per Stato, e suddiviso per anno.

Lo potete trovare qui: Redditi USA

Redditi USA

Per leggere o importare dati da file CSV, puoi utilizzare la funzione read_csv(). Nella funzione, è necessario specificare la posizione del file CSV:

import pandas as pd
reddito = pd.read_csv("/content/Redditi USA.csv",sep = ';')
reddito

Outtput:

Ottenere i nomi delle variabili

Usando il comando reddito.columns, è possibile recuperare i nomi delle variabili di un data frame.

reddito.columns[0:2]restituisce i nomi delle prime due colonne ‘Indice’, ‘Stato’.

Nota bene: In Python, l’indicizzazione inizia da 0.

Conoscere i tipi di variabili

È possibile utilizzare il comando dataFrameName.dtypes per estrarre le informazioni relative ai tipi di variabili archiviate nel dataframe:

Per vedere il tipo di una sola variabile (diciamo “Stato”) è possibile usare il comando seguente:

reddito['Stato'].dtypes

Modifica dei tipi di dati

A2008 è un numero intero. Supponiamo di volerlo convertire in float (variabile numerica con decimali) possiamo scrivere:

reddito.A2008 = reddito.A2008.astype(float)

Visualizzare le dimensioni o la forma dei dati

reddito.shape

⇒ 51 è il numero di righe, 16 il numero delle colonne.

Possiamo anche usare shape[0] tper vedere il numero di righe e shape[1] per il numero di colonne.

Visualizzare soltanto alcune righe del dataframe.

Per default, il comando head( ) mostra le prime 5 righe. Se vuoi vedere un particolare numero di righe, lo devi specificare tra parentesi quadre. La funzione tail( ) si comporta similmente mostrando le ultime 5 righe.

reddito.head()

reddito.head(2) #mostra le prime due righe.

reddito.tail()

reddito.tail(2) #mostra le ultime due colonne.

[elementor-template id=”12586″]

Ti potrebbe interessare anche: Dieci quesiti "al volo" di trigonometria. Le trasformazioni nel piano. Parte IV

(720)

Ultimi Articoli

Cerca nel sito