Il linguaggio R. Le basi

Cerca nel sito

Altri risultati..

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors


Indice

Il linguaggio R

R è un ambiente di programmazione nato per la statistica negli anni 90 come costola open-source di un linguaggio, di circa vent’anni più vecchio, chiamato S a cui è strettamente legato un altro ‘ambiente’ commerciale probabilmente più conosciuto, S-Plus. R, a differenza di S-Plus, è un GNU-Sofware, ovvero disponibile gratuitamente sotto i vincoli della GPL (General Public Licence). R è oggi molto diffuso, grazie alla flessibilità della sintassi, alla sua natura modulare e la sempre più vasta comunità che ne supporta lo sviluppo. Esso rappresenta oggi un framework in grado di acquisire moli di dati dalle sorgenti più disparate, offrendo strumenti per una loro analisi immediata ed efficiente, anche al di fuori della nicchia scientifica della statistica. Piuttosto che definire R come un software statistico, esso deve essere definito come un ambiente, ovvero un insieme di macro, librerie, oggetti che possono essere utilizzati per la gestione, l’analisi dei dati e la produzione di grafici; il termine R o ambiente verranno utilizzati indifferentemente. Per questo motivo quando ci si appresta a lavorare la classica domanda “E possibile in R implementare….?”, deve essere sostituita da “Quanto è difficile in R implementare…?”.


In questo corso di base per R, trattiamo le basi di questo linguaggio di programmazione, uno dei più conosciuti e utilizzati nel campo dell’analisi dati e data science. Questo non significa che una volta finito questo corso sarai in grado di analizzare grossi dataset, ma avrai comunque delle buone basi per creare, manipolare e gestire dei dataset e delle strutture dati più semplici.






Installazione di R

La prima cosa da fare è accedere al sito web del progetto CRAN (Comprehensive R Archive Network), da cui si potranno scaricare sorgenti ed eseguibili per i vari sistemi operativi. Per tutti gli sviluppatori R, CRAN resta il fulcro dell’acquisizione di software, sia di base sia di espansione. Le opzioni di installazione saranno diverse ma, tanto per citare piattaforme comuni, per Windows si potrà scaricare un eseguibile che fornirà i binari di base. Ecco il link:

Ti potrebbe interessare anche:  Linguaggio R. Le operazioni con i vettori.

http://cran.mirror.garr.it/mirrors/CRAN/

in alternativa:

http://www.r-project.org/

  • Questi siti sono una vera e propria “miniera” di informazioni e materiale su R.
  •  Da questi siti è possibile scegliere un mirror da cui scaricare R (disponibile per diverse piattaforme)
  •  Scaricare documentazione.
  • Scaricare componenti da integrare con R.
  • installazione linguaggio R

HELP

L’help di R è molto potente.

help() – indicazioni su come usare l’help
help(comando) – oppure ?comando
help ≠ help() – usare le parentesi!!!
 example(comando) – provare per credere!
 demo(comando) – idem come sopra.

  • Con il comando help.search(“exp”) è possibile cercare nell’help gli argomenti che soddisfano l’espressione regolare exp fornita al comando.
  • Il comando apropos(“exp”) visualizza i comandi il cui nome soddisfa exp.
  • Guardate cosa fa R se digitiamo help.start()

help linguaggio R

Per gli operatori e le parole chiave dei costrutti di programmazione è necessario mettere l’argomento tra apici. es. help(“+”) oppure help(“for”)

>help.start()  => accedi alla pagina internet di aiuto generica
>??keyword => accedi alla pagina di aiuto relativa alla parola chiave immessa
>?funzione che si vuole chiarire => accedi alla pagina relativa alla funzione immessa
>help(package=nome pacchetto) o library(help=nome pacchetto) => lista delle funzioni e dataset del pacchetto immesso

 

La console interattiva

R è stato pensato essere utilizzato tramite riga di comando.
Esistono anche interfacce grafiche, ma sono limitate alle semplici operazioni ricorrenti (leggere files, etc.)
Sotto windows usiamo la R-console.


Sotto unix usiamo la shell.

Avviamo R……e siamo a contatto con la console.

  •  Tutti i comandi vanno inseriti dopo il prompt
  •  R ci ricorda che possiamo uscire tramite il comando q()

Funzioni di BASE

>install.packages(“nome del pacchetto”) => installare pacchetti
>library(nome del pacchetto)=> ogni volta che si intende usare il pacchetto, questo va richiamato.

Ti potrebbe interessare anche:  Web scraping. Analizziamo le tendenze con Google Trends. Parte III

Working directory

  • R, per default, salva i dati nella directory corrente (la directory da cui è stato avviato).
  •  Tramite il comando setwd(nuovaDirectory) possiamo cambiare tale directory.
  •  Tramite il comando getwd() visualizziamo tale directory.
  •  Con il comando dir() visualizziamo il contenuto della working directory.
  • E’ una buona cosa creare directory diverse per diversi progetti.

getwd() => ti dice qual è la working directory ovvero dove importa/salva i lavori.
>setwd(“indirizzo cartella che si vuole usare”) => per cambiare la working directory oppure utilizzare la voce apposita ‘da ‘file’.

Workspace

R salva tutte le variabili frutto di elaborazione in un’area di memoria nominata, per l’utente, workspace.
E’ possibile salvare il workspace all’uscita di R in maniera tale da poter continuare il lavoro da dove l’avevamo lasciato. I dati vengono salvati nei file .RData e .RHistory

>load(“nome workspace precedentemente salvato.RData”) => carichi un workspace salvato.

>ls() => vedi gli oggetti presenti nel workspace

ls.str() => abbiamo più dettagli

Comando ls()
>library() => vedi tutti i pacchetti installati
NB. se un nome è inserito tra apici allora viene considerato solamente una parola mentre senza apici denota un oggetto!

>class(nome oggetto) => vedi tipologia oggetto
>attributes(nome oggetto)=> vedi tipologia e altre info ad es. numero di righe/colonne
>str(nome oggetto) => vedi la struttura interna dell’oggetto

Se l’oggetto è un DATA FRAME(set di dati):
>names(nome oggetto) => estrae i nomi delle colonne
>head(nome oggetto,numero di righe desiderate)=> mostra prime righe
>tail(nome oggetto ,numero di righe desiderate) => mostra ultime righe
>summary(nome oggetto) => calcola statistiche per ogni colonna– minimo, 1° quartile, mediana, media, 3° quartile e massimo

Ti potrebbe interessare anche:  Introduzione alla SEO

Sintassi di un comando R:

  • Variabile/oggetto <- comando(par1, par2, …)
  •  Il simbolo <- è usato al posto dell’uguale (=)
  •  R supporta il segno = ma ne sconsiglia l’uso

  •  E’ disponibile anche il comando assign (vedi help(assign)). E’ utile negli script per le assegnazioni multiple.
  •  Se non specifichiamo la variabile destinazione il risultato viene tenuto nella variabile .Last.value
  •  Premendo i tasti freccia su e freccia giù possiamo navigare nella command history (la lista dei comandi eseguiti precedentemente).

Parametri

E’ possibile passare i parametri alle funzioni R nell’ordine prestabilito oppure specificando vari nomi.

Esempio:
a <- matrix(1:3)
a <- matrix(data=1:3)
I due comandi sono equivalenti.

Pulizia

Ogni assegnazione in R sovrascrive il contenuto della variabile di destinazione.
Gli oggetti possono essere rimossi con il comando rm(oggettoDaCancellare) ,rimozioni multiple rm(pippo,pluto, x1), con rm(list=ls()) svuotiamo il workspace

CTRL + L => cancella la schermata

 

Interagire con il sistema operativo

system(‘applicazione’) avvia un’applicazione
es: system(“notepad”)
Per eseguire script R si usa il comando source
source(“nomeScript”)
es: source(“fwdTree.R”)

 

Output in un file

Con il comando sink(“out.txt”) si dirotta l’output dei comandi R che digitiamo nel file out.txt
Per tornare a vedere l’output in console digitiamo sink (NULL)

Esempio:

 

(310)