Per un'analisi avanzata dei dati, Python è migliore di Excel.  Ecco come importare i tuoi dati Excel in uno script Python usando Pandas!

Come importare dati Excel in script Python usando Panda

Annuncio pubblicitario Microsoft Excel è il software per fogli di calcolo più diffuso al mondo e per buoni motivi: l'interfaccia intuitiva e i potenti strumenti integrati semplificano il lavoro con i dati. Ma se vuoi eseguire un'elaborazione dei dati più avanzata, dovrai andare oltre le capacità di Excel e iniziare a utilizzare un linguaggio di programmazione / scripting come Python. In

Annuncio pubblicitario

Microsoft Excel è il software per fogli di calcolo più diffuso al mondo e per buoni motivi: l'interfaccia intuitiva e i potenti strumenti integrati semplificano il lavoro con i dati.

Ma se vuoi eseguire un'elaborazione dei dati più avanzata, dovrai andare oltre le capacità di Excel e iniziare a utilizzare un linguaggio di programmazione / scripting come Python. Invece di copiare manualmente i tuoi dati in database, ecco un breve tutorial su come caricare i tuoi dati Excel in Python usando Pandas.

Nota: se non hai mai usato Python prima, questo tutorial potrebbe essere un po 'difficile. Si consiglia di iniziare con questi siti Web per l'apprendimento di Python I 5 migliori siti Web per imparare la programmazione Python I 5 migliori siti Web per imparare la programmazione Python Vuoi imparare la programmazione Python? Ecco i modi migliori per imparare Python online, molti dei quali sono completamente gratuiti. Leggi di più e questi esempi Python di base per iniziare 10 Esempi Python di base che ti aiuteranno a imparare velocemente 10 Esempi Python di base che ti aiuteranno a imparare velocemente Questo articolo di esempi python di base è per coloro che hanno già qualche esperienza di programmazione e vogliono semplicemente passaggio a Python il più rapidamente possibile. Leggi di più .

Che cosa sono i panda?

Python Data Analysis Library ("Pandas") è una libreria open source per il linguaggio di programmazione Python utilizzato per l'analisi e la manipolazione dei dati.

Panda carica i dati in oggetti Python noti come Dataframe, che memorizzano i dati in righe e colonne proprio come un database tradizionale. Una volta creato, un Dataframe può essere manipolato utilizzando Python, aprendo un mondo di possibilità.

Installazione di Panda

Nota: è necessario disporre di Python 2.7 o versione successiva per installare Panda.

Per iniziare a lavorare con i panda sul tuo computer dovrai importare la libreria di panda. Se sei alla ricerca di una soluzione pesante, puoi scaricare Anaconda Python Distribution, che ha Pandas integrato. Se non hai un utilizzo per Anaconda, Pandas è semplice da installare nel tuo terminale.

Pandas è un pacchetto PyPI, il che significa che è possibile installare utilizzando PIP per Python tramite la riga di comando. I moderni sistemi Mac sono dotati di PIP. Per altri sistemi Windows, Linux e precedenti è facile imparare come installare PIP per Python Come installare Python PIP su Windows, Mac e Linux Come installare Python PIP su Windows, Mac e Linux Molti sviluppatori Python fanno affidamento su uno strumento chiamato PIP per Python per rendere tutto più semplice e veloce. Ecco come installare Python PIP. Leggi di più .

Dopo aver aperto il terminale, è possibile installare l'ultima versione di Panda usando il comando:

 >> pip install pandas 

Pandas richiede anche la libreria NumPy, installiamola anche dalla riga di comando:

 >> pip install numpy 

Ora Pandas è installato e pronto per creare il tuo primo DataFrame!

Preparazione dei dati di Excel

Per questo esempio, utilizziamo un set di dati di esempio: una cartella di lavoro di Excel denominata Cars.xlsx .

Tabella Excel per panda python

Questo set di dati mostra la marca, il modello, il colore e l'anno delle auto immesse nella tabella. La tabella viene visualizzata come intervallo di Excel. Panda è abbastanza intelligente da leggere i dati in modo appropriato.

Questa cartella di lavoro viene salvata nella directory Desktop, ecco il percorso del file utilizzato:

 /Users/grant/Desktop/Cars.xlsx 

Per utilizzare Panda è necessario conoscere il percorso del file della cartella di lavoro. Iniziamo aprendo Visual Studio Code per scrivere lo script. Se non disponi di un editor di testo, ti consigliamo Visual Studio Code o Atom Editor Visual Studio Code e Atom: quale editor di testo è adatto a te? Visual Studio Code vs. Atom: quale editor di testo è giusto per te? Cerchi un editor di codice gratuito e open source? Visual Studio Code e Atom sono i due candidati più forti. Leggi di più .

Scrivere lo script Python

Ora che hai il tuo editor di testo preferito, inizia il vero divertimento. Riuniremo Python e la nostra cartella di lavoro di Cars per creare un DataFrame Pandas.

Importazione delle librerie Python

Apri il tuo editor di testo e crea un nuovo file Python. Chiamiamolo Script.py .

Per lavorare con Panda nello script, dovrai importarlo nel tuo codice. Questo viene fatto con una riga di codice:

 import pandas as pd 

Qui stiamo caricando la libreria Pandas e collegandola a una variabile "pd". Puoi usare qualsiasi nome tu voglia, stiamo usando "pd" come abbreviazione di Panda.

Per lavorare con Excel utilizzando Panda, è necessario un oggetto aggiuntivo denominato ExcelFile . ExcelFile è incorporato nell'ecosistema Pandas, quindi puoi importare direttamente da Pandas:

 from pandas import ExcelFile 

Lavorare con il percorso del file

Per consentire a Pandas di accedere alla tua cartella di lavoro, devi indirizzare lo script nella posizione del file. Il modo più semplice per farlo è fornire allo script il percorso completo della cartella di lavoro.

Ricorda il nostro percorso in questo esempio: /Users/grant/Desktop/Cars.xlsx

Per estrarre i dati avrai bisogno di questo percorso di file indicato nello script. Invece di fare riferimento al percorso all'interno della funzione Read_Excel, mantenere pulito il codice memorizzando il percorso in una variabile:

 Cars_Path = '/Users/grant/Desktop/Cars.xlsx' 

Ora sei pronto per estrarre i dati usando una funzione Pandas!

Estrai dati Excel usando Pandas.Read_Excel ()

Con Pandas importato e la variabile del percorso impostata, ora è possibile utilizzare le funzioni nell'oggetto Pandas per eseguire il nostro compito.

La funzione da utilizzare è denominata in modo appropriato Read_Excel . La funzione Read_Excel prende il percorso del file di una cartella di lavoro di Excel e restituisce un oggetto DataFrame con il contenuto della cartella di lavoro. I panda codificano questa funzione come:

 pandas.read_excel(path) 

L'argomento "percorso" sarà il percorso della nostra cartella di lavoro Cars.xlsx e abbiamo già impostato la stringa del percorso sulla variabile Cars_Path.

Sei pronto per creare l'oggetto DataFrame! Mettiamo tutto insieme e impostiamo l'oggetto DataFrame su una variabile denominata "DF":

 DF = pd.read_excel(Cars_Path) 

Infine, vuoi visualizzare il DataFrame, quindi stampiamo il risultato. Aggiungi un'istruzione print alla fine dello script, usando la variabile DataFrame come argomento:

 print(DF) 

È ora di eseguire lo script nel tuo terminale!

Esecuzione dello script Python

Apri il tuo terminale o la riga di comando e vai alla directory che ospita lo script. In questo caso, ho "Script.py" sul desktop. Per eseguire lo script, utilizzare il comando python seguito dal file di script:

Script Python nel terminale

Python estrarrà i dati da "Cars.xlsx" nel tuo nuovo DataFrame e stamperà il DataFrame sul terminale!

Python DataFrame nel terminale

Uno sguardo più da vicino all'oggetto DataFrame

A prima vista, DataFrame sembra molto simile a una normale tabella di Excel. Di conseguenza, Pandas DataFrames è facile da interpretare.

Le intestazioni sono etichettate nella parte superiore del set di dati e Python ha compilato le righe con tutte le informazioni lette dalla cartella di lavoro "Cars.xlsx".

Notare la colonna più a sinistra, un indice che inizia da 0 e numera le colonne. Panda applicherà questo indice al tuo DataFrame per impostazione predefinita, che può essere utile in alcuni casi. Se non desideri che questo indice venga generato, puoi aggiungere un ulteriore argomento al tuo codice:

 DF = pd.read_excel(Cars_Path, index=False) 

L'impostazione dell'argomento "indice" su False rimuoverà la colonna dell'indice, lasciandoti solo con i tuoi dati Excel.

Fare di più con Python

Ora che hai la possibilità di leggere i dati dai fogli di lavoro di Excel, puoi applicare la programmazione Python come preferisci. Lavorare con Pandas è un modo semplice per i programmatori Python esperti di lavorare con i dati memorizzati nelle cartelle di lavoro di Excel.

La facilità con cui Python può essere utilizzato per analizzare e manipolare i dati è uno dei tanti motivi per cui Python è il linguaggio di programmazione del futuro 6 Ragioni per cui Python è il linguaggio di programmazione del futuro 6 Ragioni per cui Python è il linguaggio di programmazione del futuro Vuoi imparare o espandere le tue capacità di programmazione? Ecco perché Python è il miglior linguaggio di programmazione da imparare quest'anno. Leggi di più .

Credito di immagine: Rawpixel / Depositphotos

Scopri di più su: Analisi dei dati, Microsoft Excel, Python, Scripting.