Python: la libreria Pandas

Cerca nel sito

Altri risultati..

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
la libreria Pandas


Cos’è la libreria Pandas?

Pandas è uno delle libreire più popolari in Python ed è ampiamente utilizzata per la manipolazione dei dati. È  molto potente e versatile poichè rende la pulizia e la gestione dei dati molto più semplice e agevole.
 Pandas rende python uno dei migliori linguaggi di programmazione per la scienza e l’analisi dei dati.

Pandas ha molte funzioni essenziali per la gestione e la manipolazione dei dati, per esempio:


  1. Creare un set di dati strutturato simile al dataframe di R e al foglio di calcolo di Excel.
  2. Lettura di dati da varie fonti come CSV, TXT, XLSX, WEB, database SQL, R ecc.
  3. Selezione di righe o colonne particolari dal set di dati
  4. Disposizione dei dati in ordine crescente o decrescente
  5. Selezione dei dati in base ad alcune condizioni
  6. Riepilogo dei dati per variabile di classificazione
  7. Analisi delle serie temporali
  8. Unione e concatenazione di  set di dati
  9. Iterare sulle righe del set di dati
  10. Scrittura o esportazione di dati in formato CSV o Excel

Set di dati:

Funzioni importanti di Pandas da ricordare

Estrarre i nomi delle colonne df.columns
Selezionare le prime 2 righe df.iloc[:2]
Selezionare le prime 2 colonne df.iloc[:,:2]
Selezionare le colonne per nome df.loc[:,[“col1″,”col2”]]
Selezione casuale n. di righe  df.sample(n = 10)
Selezionare una frazione di righe casuali df.sample(frac = 0.2)
Rinominare le variabili df.rename( )
Selezione di una colonna come indice df.set_index()
Rimozione di righe o colonne df.drop( )
Ordinamento dei valori df.sort_values( )
Variabili di raggruppamento df.groupby( )
Selezione df.query( )
Trovare i valori mancanti df.isnull( )
Eliminare i valori mancanti df.dropna( )
Rimozione dei duplicati df.drop_duplicates()
Gestire le variabili categoriali pd.get_dummies( )
classificare df.rank( )
Somma cumulativa df.cumsum()
quantili df.quantile( )
Selezione di variabili numeriche df.select_dtypes()
Concatenazione di due frame di dati pd.concat()
Unione sulla base di una variabile comune pd.merge()
Ti potrebbe interessare anche:  Web scraping con Python: estraiamo i dati Covid

Importare la libreria Pandas

Prima di poter utilizzare la libreria, è necessario caricarla in memoria, attraverso il seguente codice:

import pandas as pd

Il “pd” è un alias o un’abbreviazione che verrà utilizzata come scorciatoia per accedere o chiamare le funzioni di Pandas.

Importazione del set di dati

Per leggere o importare dati da file CSV, puoi utilizzare la funzione read_csv(). Nella funzione, è necessario specificare la posizione del file CSV.

In questo esempio, utilizzeremo un file di prova, in cui troviamo i dati del reddito pro-capite negli USA, dettagliato per Stato, e suddiviso per anno.

Lo potete trovare qui: Redditi USA

Redditi USA

Per leggere o importare dati da file CSV, puoi utilizzare la funzione read_csv(). Nella funzione, è necessario specificare la posizione del file CSV:

import pandas as pd
reddito = pd.read_csv("/content/Redditi USA.csv",sep = ';')
reddito
Outtput:

Ottenere i nomi delle variabili

Usando  il comando reddito.columns, è possibile recuperare i nomi delle variabili di un data frame.

reddito.columns[0:2]restituisce i  nomi delle prime due colonne ‘Indice’, ‘Stato’.

Nota bene: In Python, l’indicizzazione inizia da 0.

Conoscere i tipi di variabili

È possibile utilizzare il comando dataFrameName.dtypes per estrarre le informazioni relative ai tipi di variabili archiviate nel dataframe:

dtypes


Per vedere il tipo  di una sola variabile (diciamo “Stato”) è possibile usare il comando seguente:

reddito['Stato'].dtypes

Modifica dei tipi di dati

A2008 è un numero intero. Supponiamo di volerlo convertire in float (variabile numerica con decimali) possiamo scrivere:
reddito.A2008 = reddito.A2008.astype(float)

Visualizzare le dimensioni o la forma dei dati

reddito.shape
shape
⇒ 51 è il numero di righe, 16 il numero delle colonne.
Possiamo anche usare shape[0] tper vedere il numero di righe e shape[1] per il numero di colonne.

Visualizzare soltanto alcune righe del dataframe.

Per default, il comando  head( ) mostra le prime 5 righe. Se vuoi vedere un particolare numero di righe, lo devi specificare tra parentesi quadre. La funzione tail( ) si comporta similmente mostrando le ultime 5 righe.

reddito.head()
reddito.head(2)  #mostra le prime due righe.
reddito.tail() 
reddito.tail(2)  #mostra le ultime due colonne.

[elementor-template id=”12586″]

Ti potrebbe interessare anche:  Dieci quesiti "al volo" di trigonometria. Le trasformazioni nel piano. Parte IV

(720)