Seguici su Telegram, ne vale la pena ❤️ ➡ @trovalost
Vai al contenuto

Principal Components Analysis spiegata con i fiori (ah ok)

Anche senza conoscenze informatiche avanzate è possibile comprendere l’idea di base dell’Analisi delle Componenti Principali (PCA) e come possa semplificare la comprensione e il riconoscimento di varie situazioni del mondo reale. Immaginiamo un campo pieno di fiori: troveremo diversi tipi di fiori con diverse caratteristiche e peculiarità. Immagina adesso di avere un vasto insieme di dati, una tabella gigantesca dove hai annotato, in forma codificata, le caratteristiche di ogni fiore:

  • altezza del gambo
  • diametro dei petali
  • lunghezza dei petali
  • colore principale

Vuoi semplificare queste informazioni in modo da poter riconoscere i tipi di fiori in modo più intuitivo, ovvero fare in modo che un algoritmo possa, ad esempio con un’app sul telefono, riconoscere nuovi tipi di fiori che la gente fotografa in giro. Ecco come potrebbe funzionare l’Analisi delle Componenti Principali (PCA) in questo specifico contesto:

  • Prendi inizialmente in considerazione un set di fiori diversi, ad esempio rose, tulipani e girasoli. Ognuno di questi fiori ha diverse caratteristiche misurabili, come lunghezza dei petali, larghezza dei petali e altezza del gambo. Raccogli dati su queste caratteristiche per diversi esemplari di ogni tipo di fiore. Ad esempio, potresti misurare la lunghezza e la larghezza dei petali di 10 rose, 10 tulipani e 10 girasoli.
  • Premesso che la varianza indica quanto le caratteristiche variano tra i fiori di uno stesso tipo e tra fiori di tipi diversi, calcola la varianza delle diverse caratteristiche tra i fiori.
  • Ci sono troppe colonne da analizzare, come si fa?! Un’idea potrebbe essere utilizzare l’analisi delle componenti principali per ridurre la dimensionalità dei dati. Questo significa che cercherai di trovare una combinazione delle caratteristiche che spieghi la maggior parte della varianza totale dei fiori. Ad esempio, potresti scoprire che la dimensione del petalo è la caratteristica che contribuisce maggiormente alla varianza complessiva dei fiori (feature selection), oppure che le sfumatore di colore si possono accorpare in una singola colonna (feature extraction).

Ogni componente principale in termini di dati numerici (cosa sempre possibile, dato che posso associare un numero univoco ad ogni caratteristica in modo arbitrario, il che è alla base dell’informatica di ogni ordine e grado) avrà una “direzione” e una “magnitudine”: la direzione rappresenterà l’asse lungo il quale i dati sui fiori sono maggiormente distribuiti oppure hanno la maggiore varianza. Potresti fare scoperte interessanti, a questo punto: potresti scoprire che la direzione principale è fortemente correlata alla lunghezza del petalo.

Alla fine avrai un modo semplificato per rappresentare e confrontare i fiori utilizzando le componenti principali. Puoi visualizzare i dati ridotti in un grafico a due dimensioni, ad esempio, dove l’asse X rappresenta la direzione principale e l’asse Y rappresenta un’altra componente principale significativa.

Feature selection vs feature extraction: a cosa servono?

Tutto parte dalla “maledizione della dimensionalità”, un problema che si verifica quando si lavora con un alto numero di caratteristiche o dimensioni nei dati. Nel contesto del riconoscimento dei fiori, può significare che se abbiamo un gran numero di caratteristiche come lunghezza dei petali, larghezza dei petali, altezza del gambo, ecc., la complessità del modello necessario per riconoscere correttamente i fiori aumenta notevolmente. Questo può portare a problemi come overfitting, prestazioni ridotte del modello e tempi di calcolo più lunghi. Quindi, sia la feature selection che la feature extraction sono tecniche utilizzate per ridurre la dimensionalità dei dati nel riconoscimento dei fiori. La feature selection seleziona solo un sottoinsieme rilevante di caratteristiche, mentre la feature extraction crea nuove caratteristiche che sintetizzano l’informazione dei dati originali. Entrambe le tecniche possono essere utilizzate per affrontare il problema della maledizione della dimensionalità, semplificando il modello di riconoscimento dei fiori e migliorando le prestazioni complessive.

La differenza tra feature selection (selezione delle caratteristiche) e feature extraction (estrazione delle caratteristiche) riguarda il modo in cui le informazioni vengono trattate al fine di ridurre la dimensionalità dei dati , ad esempio nel contesto del riconoscimento dei fiori e di un’app adibita a farlo mediante fotografie (pensiamo a Google Lens, ad esempio).

Cos’è la feature selection

La feature selection è il processo di selezionare un sottoinsieme rilevante di caratteristiche dai dati originali. In questo caso, scegliamo specifiche caratteristiche che riteniamo siano le più informative per il riconoscimento dei fiori. Ad esempio, potremmo selezionare solo la lunghezza e la larghezza dei petali come caratteristiche rilevanti e scartare altre informazioni come altezza del gambo o colore dei petali.

Cos’è la feature extraction

D’altra parte, la feature extraction implica la creazione di nuove caratteristiche che sintetizzano l’informazione contenuta nei dati originali. In questo caso, utilizziamo tecniche come l’Analisi delle Componenti Principali (PCA) per combinare le caratteristiche originali in nuove caratteristiche che catturano la massima varianza dei dati. Ad esempio, potremmo creare una nuova caratteristica che rappresenti la lunghezza media dei petali, combinando le informazioni sulla lunghezza dei petali di diverse specie di fiori.

Spiegone tecnico (in sintesi)

PCA per scemotti

In sintesi, l’Analisi delle Componenti Principali (PCA, dall’inglese Principal Component Analysis) è una tecnica statistica utilizzata per ridurre la dimensionalità dei dati, identificare le strutture nascoste e mantenere la maggior parte delle informazioni contenute nel dataset originale. Molto usata nel machine learning come tecnica pratica per lavorare con matrici di dati in cui siano presenti molte colonne, dell’ordine delle decine o centinaia di migliaia (e anche oltre, in alcuni casi).

A cosa serve la PCA

L’Analisi delle Componenti Principali è una tecnica statistica utilizzata per ridurre la dimensionalità di un insieme di dati, mantenendo al contempo la maggior parte delle informazioni contenute in esso. È ampiamente utilizzata in diverse discipline, tra cui statistica, matematica, informatica e scienze sociali. L’obiettivo principale dell’analisi delle componenti principali è quello di identificare i pattern o le strutture nascoste nei dati, attraverso una trasformazione lineare che combina le variabili originali in un nuovo insieme di variabili, chiamate componenti principali. Le componenti principali sono calcolate in modo tale che la prima componente principale spieghi la massima varianza possibile nei dati, la seconda componente spieghi la massima varianza residua, e così via. In sostanza, PCA cerca di trovare una rappresentazione più compatta dei dati, senza perdere informazioni significative.

Esempio di PCA (matrice di covarianza)

Nell’esempio seguente, l’effetto di un algoritmo PCA è quello di determinare la direzione ed il verso dei due vettori indicati come due freccette. I vettori indicati sono, in termini matematici, autovettori della matrice di covarianza.

Di Nicoguaro - Opera propria, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195
Di Nicoguaro – Opera propria, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=46871195

L’analisi delle componenti principali ha diverse applicazioni pratiche. Ad esempio, può essere utilizzata per ridurre la dimensionalità di un dataset complesso, semplificando la visualizzazione e l’interpretazione dei dati. Inoltre, può essere utilizzata per la riduzione del rumore nei dati, eliminando le componenti principali associate al rumore e mantenendo solo quelle che rappresentano la struttura essenziale dei dati.

Cos’è una componente principale

I componenti principali sono la chiave dell’Analisi delle Componenti Principali (PCA); rappresentano ciò che si trova sotto la superficie dei tuoi dati. In parole semplici, quando i dati vengono proiettati in una dimensione inferiore (ad esempio, tre dimensioni) da uno spazio superiore, le tre dimensioni corrispondono ai tre componenti principali che catturano (o contengono) la maggior parte della varianza (informazione) dei tuoi dati.

I componenti principali hanno sia una direzione che una magnitudine. La direzione rappresenta attraverso quali assi principali i dati si distribuiscono maggiormente o hanno la maggiore varianza, mentre la magnitudine indica la quantità di varianza che il componente principale cattura dei dati quando viene proiettato su quell’asse. I componenti principali sono rappresentati da una linea retta e il primo componente principale contiene la maggiore varianza nei dati. Ogni componente principale successivo è ortogonale al precedente e ha una varianza minore. In questo modo, dati un insieme di variabili x correlate su y campioni, otterrai un insieme di componenti principali u non correlate sugli stessi y campioni.

👇 Da non perdere 👇



Questo portale web esiste da 4464 giorni (12 anni), e contiene ad oggi 6920 articoli (circa 5.536.000 parole in tutto) e 13 servizi online gratuiti. – Leggi un altro articolo a caso
5/5 (1)

Ti sembra utile o interessante? Vota e fammelo sapere.

Questo sito contribuisce alla audience di sè stesso.
Il nostro network informativo: Lipercubo.it - Pagare.online - Trovalost.it.