Cos’è la libreria Pandas?
Pandas è uno delle libreire più popolari in Python ed è ampiamente utilizzata per la manipolazione dei dati. È molto potente e versatile poichè rende la pulizia e la gestione dei dati molto più semplice e agevole.
Pandas rende python uno dei migliori linguaggi di programmazione per la scienza e l’analisi dei dati.
Pandas ha molte funzioni essenziali per la gestione e la manipolazione dei dati, per esempio:
- Creare un set di dati strutturato simile al dataframe di R e al foglio di calcolo di Excel.
- Lettura di dati da varie fonti come CSV, TXT, XLSX, WEB, database SQL, R ecc.
- Selezione di righe o colonne particolari dal set di dati
- Disposizione dei dati in ordine crescente o decrescente
- Selezione dei dati in base ad alcune condizioni
- Riepilogo dei dati per variabile di classificazione
- Analisi delle serie temporali
- Unione e concatenazione di set di dati
- Iterare sulle righe del set di dati
- Scrittura o esportazione di dati in formato CSV o Excel
Set di dati:
Funzioni importanti di Pandas da ricordare
Estrarre i nomi delle colonne | df.columns |
Selezionare le prime 2 righe | df.iloc[:2] |
Selezionare le prime 2 colonne | df.iloc[:,:2] |
Selezionare le colonne per nome | df.loc[:,[“col1″,”col2”]] |
Selezione casuale n. di righe | df.sample(n = 10) |
Selezionare una frazione di righe casuali | df.sample(frac = 0.2) |
Rinominare le variabili | df.rename( ) |
Selezione di una colonna come indice | df.set_index() |
Rimozione di righe o colonne | df.drop( ) |
Ordinamento dei valori | df.sort_values( ) |
Variabili di raggruppamento | df.groupby( ) |
Selezione | df.query( ) |
Trovare i valori mancanti | df.isnull( ) |
Eliminare i valori mancanti | df.dropna( ) |
Rimozione dei duplicati | df.drop_duplicates() |
Gestire le variabili categoriali | pd.get_dummies( ) |
classificare | df.rank( ) |
Somma cumulativa | df.cumsum() |
quantili | df.quantile( ) |
Selezione di variabili numeriche | df.select_dtypes() |
Concatenazione di due frame di dati | pd.concat() |
Unione sulla base di una variabile comune | pd.merge() |
Importare la libreria Pandas
Prima di poter utilizzare la libreria, è necessario caricarla in memoria, attraverso il seguente codice:
import pandas as pd
Il “pd” è un alias o un’abbreviazione che verrà utilizzata come scorciatoia per accedere o chiamare le funzioni di Pandas.
Importazione del set di dati
Per leggere o importare dati da file CSV, puoi utilizzare la funzione read_csv(). Nella funzione, è necessario specificare la posizione del file CSV.
In questo esempio, utilizzeremo un file di prova, in cui troviamo i dati del reddito pro-capite negli USA, dettagliato per Stato, e suddiviso per anno.
Lo potete trovare qui: Redditi USA
Redditi USA
Per leggere o importare dati da file CSV, puoi utilizzare la funzione read_csv().
Nella funzione, è necessario specificare la posizione del file CSV:
import pandas as pd
reddito = pd.read_csv("/content/Redditi USA.csv",sep = ';')
reddito
Ottenere i nomi delle variabili
Usando il comando reddito.columns
, è possibile recuperare i nomi delle variabili di un data frame.
reddito.columns[0:2]
restituisce i nomi delle prime due colonne ‘Indice’, ‘Stato’.
Nota bene: In Python, l’indicizzazione inizia da 0.
Conoscere i tipi di variabili
È possibile utilizzare il comando dataFrameName.dtypes
per estrarre le informazioni relative ai tipi di variabili archiviate nel dataframe:
Per vedere il tipo di una sola variabile (diciamo “Stato”) è possibile usare il comando seguente:
reddito['Stato'].dtypes
Modifica dei tipi di dati
reddito.A2008 = reddito.A2008.astype(float)
Visualizzare le dimensioni o la forma dei dati
reddito.shape
Visualizzare soltanto alcune righe del dataframe.
Per default, il comando head( ) mostra le prime 5 righe. Se vuoi vedere un particolare numero di righe, lo devi specificare tra parentesi quadre. La funzione tail( ) si comporta similmente mostrando le ultime 5 righe.
reddito.head()
reddito.head(2) #mostra le prime due righe.
reddito.tail()
reddito.tail(2) #mostra le ultime due colonne.
[elementor-template id=”12586″]
(720)