Al fine di leggere i dati presenti nel database, laddove per dati si intende ciò che si rileva da una data realtà di interesse, per scoprire delle correlazioni tra loro, è necessario cercare degli strumenti che ci permettano di fare ciò.
Per ottenere delle informazioni dai dati, bisogna correlarli o per lo meno cercare di farlo, in quanto in questo modo sarà possibile fare delle previsioni.
Scoprire le leggi che regolano il modello matematico che sta sotto ad un fenomeno, è di fondamentale importanza per il supporto alle decisioni, in quanto sapremo distinguere quali dei parametri sono dipendenti e quali indipendenti, e questo rappresenta una chiave di interpretazione importante.
Nello studio della correlazione entrano in gioco un numero molto elevato di variabili, ed è proprio per questo motivo che nasce l’esigenza dell’analisi multidimensionale.
Gli ipercubi multidimensionali sono idonei a rappresentare le informazioni nei sistemi di data warehouse. Gli assi, ortogonali tra loro, del cubo rappresentano le dimensioni di analisi, cioè gli insiemi di elementi che appartengono allo stesso domininio, all’incrocio dei valori di ogni asse si trovano i fatti che sono oggetto dell’analisi. I fatti sono spesso già dati di sintesi estratti dai database operazionali.
Nel caso delle vendite, ad esempio, si possono considerare le dimensioni di analisi data, negozio e prodotto.
Gli elementi dell’ipercubo rappresentano quindi la vendita di un determinato prodotto in una certa data in un particolare negozio. Questo implica quindi che gli ipercubi sono spesso sparsi poiché non sempre un determinato fatto verifica contemporaneamente tutti i valori di ogni dimensione.
I valori della singola dimensione possono essere strutturati sotto forma di gerarchia. Ad esempio se l’asse temporale individua delle date, queste possono essere raggruppate per settimane o mesi, i mesi possono essere a loro volta raggruppati in quadrimestri, e così via fino agli anni, decenni, secoli…
Analogamente la dimensione spaziale può essere strutturata con una gerarchia del tipo strada, quartiere, comune, provincia, regione, nazione… Il tipo di raggruppamento da utilizzare dipende ovviamente dal problema che si sta analizzando.
Operazioni
Per navigare all’interno dell’ipercubo multidimensionale, sono utilizzabili le operazioni di roll-up, drill-down, slice-and-dice e pivoting.
L’operazione di roll-up consente di sintetizzare progressivamente i fatti in base alla gerarchia di valori di una dimensione fino a farla sparire. Nell’esempio delle vendite, rappresentando in una tabella la dimensione temporale sulle righe e i prodotti sulle colonne, si possono raggruppare i dati giornalieri in modo che le nuove righe contengano i totali mensili per ogni prodotto. Raggruppando ulteriormente si può arrivare a comprimere la dimensione temporale ottenendo un’unica riga con le vendite totali.
Quella di drill-down è l’operazione inversa del roll-up. Permette di espandere i dati aggregati ad un certo livello di gerarchia di una dimensione, nei dati più dettagliati del livello gerarchico sottostante. Ad esempio si possono esplodere i dati di vendita mensili in quelli giornalieri.
Slice-and-dice consente di filtrare i dati dell’ipercubo fissando un valore su una dimensione. Quindi per esempio, fissando un negozio lungo la dimensione geografica è possibile ottenere la fetta di cubo che contiene tutte le vendite in ogni giorno di tutti i prodotti venduti in quel determinato negozio. Applicando iterativamente il processo sulle varie dimensioni si arriva a individuare il singolo fatto.
L’operazione di pivoting consente di analizzare le stesse informazioni da prospettive diverse ruotando il cubo lungo una direzione. Se una tabella rappresenta l’andamento delle vendite nel tempo dei prodotti nei negozi, è possibile estrarne una che contenga quanto hanno venduto nei vari anni i singoli negozi per ogni tipologia di prodotto.
Per ottenere delle informazioni dai dati, bisogna correlarli o per lo meno cercare di farlo, in quanto in questo modo sarà possibile fare delle previsioni.
Scoprire le leggi che regolano il modello matematico che sta sotto ad un fenomeno, è di fondamentale importanza per il supporto alle decisioni, in quanto sapremo distinguere quali dei parametri sono dipendenti e quali indipendenti, e questo rappresenta una chiave di interpretazione importante.
Nello studio della correlazione entrano in gioco un numero molto elevato di variabili, ed è proprio per questo motivo che nasce l’esigenza dell’analisi multidimensionale.
Gli ipercubi multidimensionali sono idonei a rappresentare le informazioni nei sistemi di data warehouse. Gli assi, ortogonali tra loro, del cubo rappresentano le dimensioni di analisi, cioè gli insiemi di elementi che appartengono allo stesso domininio, all’incrocio dei valori di ogni asse si trovano i fatti che sono oggetto dell’analisi. I fatti sono spesso già dati di sintesi estratti dai database operazionali.
Nel caso delle vendite, ad esempio, si possono considerare le dimensioni di analisi data, negozio e prodotto.
Gli elementi dell’ipercubo rappresentano quindi la vendita di un determinato prodotto in una certa data in un particolare negozio. Questo implica quindi che gli ipercubi sono spesso sparsi poiché non sempre un determinato fatto verifica contemporaneamente tutti i valori di ogni dimensione.
I valori della singola dimensione possono essere strutturati sotto forma di gerarchia. Ad esempio se l’asse temporale individua delle date, queste possono essere raggruppate per settimane o mesi, i mesi possono essere a loro volta raggruppati in quadrimestri, e così via fino agli anni, decenni, secoli…
Analogamente la dimensione spaziale può essere strutturata con una gerarchia del tipo strada, quartiere, comune, provincia, regione, nazione… Il tipo di raggruppamento da utilizzare dipende ovviamente dal problema che si sta analizzando.
Operazioni
Per navigare all’interno dell’ipercubo multidimensionale, sono utilizzabili le operazioni di roll-up, drill-down, slice-and-dice e pivoting.
L’operazione di roll-up consente di sintetizzare progressivamente i fatti in base alla gerarchia di valori di una dimensione fino a farla sparire. Nell’esempio delle vendite, rappresentando in una tabella la dimensione temporale sulle righe e i prodotti sulle colonne, si possono raggruppare i dati giornalieri in modo che le nuove righe contengano i totali mensili per ogni prodotto. Raggruppando ulteriormente si può arrivare a comprimere la dimensione temporale ottenendo un’unica riga con le vendite totali.
Quella di drill-down è l’operazione inversa del roll-up. Permette di espandere i dati aggregati ad un certo livello di gerarchia di una dimensione, nei dati più dettagliati del livello gerarchico sottostante. Ad esempio si possono esplodere i dati di vendita mensili in quelli giornalieri.
Slice-and-dice consente di filtrare i dati dell’ipercubo fissando un valore su una dimensione. Quindi per esempio, fissando un negozio lungo la dimensione geografica è possibile ottenere la fetta di cubo che contiene tutte le vendite in ogni giorno di tutti i prodotti venduti in quel determinato negozio. Applicando iterativamente il processo sulle varie dimensioni si arriva a individuare il singolo fatto.
L’operazione di pivoting consente di analizzare le stesse informazioni da prospettive diverse ruotando il cubo lungo una direzione. Se una tabella rappresenta l’andamento delle vendite nel tempo dei prodotti nei negozi, è possibile estrarne una che contenga quanto hanno venduto nei vari anni i singoli negozi per ogni tipologia di prodotto.
Nessun commento:
Posta un commento