Blog

Data Integration: l’integrazione dati spiegata step by step

Data Integration: l’integrazione dati spiegata step by step
PUBBLICATO

22 Dic 2021

categorie

Data Hub

tag

Gestire quantità significative di dati, provenienti da molteplici fonti, spesso tra loro eterogenee, può creare diverse problematiche in termini di dispersione delle informazioni e costi correlati: le soluzioni di Data Integration superano ogni  criticità, grazie alla capacità di convogliare e raccogliere i dati in un unico luogo. In questo articolo introdurremo la definizione e il significato di integrazione di dati, il legame con l’informatica e l’analisi dati, oltre ai vantaggi che questa attività assicura alle aziende, non solo di grandi dimensioni e con mole di informazioni significative, ma anche imprese di piccole dimensioni. Entreremo nel dettaglio dei benefici,  portando alcuni esempi concreti e la proposta di INTWIG nell’ambito della Data Integration. 

Significato: cos’è la Data Integration 

Il termine Data Integration si riferisce al processo di unificazione di diverse fonti di dati, al fine di convogliare l’informazione in essi contenuta. Quest’attività include una serie di fasi tra cui:

  1. Data Ingestion e assimilazione dei dati, per connettersi alle sorgenti dei dati e renderli disponibili in un ambiente dov’è possibile esplorarli, analizzarli ed elaborarli;
  2. Pulizia dei dati, al fine di una corretta gestione degli eventuali dati mancanti e/o valori anomali;
  3. Mappatura, analisi e trasformazione dei dati, per riorganizzare l’informazione disponibile ed estenderla;
  4. Elaborazione di intelligence, per creare collettori di dati accessibili e fruibili.

La Data Integration racchiude, quindi, un insieme di processi tecnici e di business finalizzati alla raccolta di dati provenienti da fonti distinte, sia on-premise (cioè in locale) sia cloud. Questi dati vengono, poi, immagazzinati secondo quattro approcci distinti:

  • Silos: prevede uno storage dei dati aziendali suddivisi per ambienti isolati (generalmente rappresentati dai dipartimenti aziendali);
  • Data Warehouse (DWH): raccoglie dati strutturati (cioè, descrivibili con tabelle e/o schemi precisi) e consente di integrare i dati aziendali con quelli provenienti da fonti esterne.
  • Data Lake (DL): archivia i dati nel formato nativo e stabilisce relazioni e strutture solo quando si presenta la necessità, consentendo così di immagazzinare elevate quantità di dati con formati differenti e provenienti da fonti eterogenee.
  • Modello Integrato: è il risultato della combinazione e dell’integrazione del Data Warehouse con il Data Lake.

Data Integration, perché è importante

L’integrazione dei dati costituisce un momento fondamentale del processo di analisi e gestione del dato, in particolar modo quando è finalizzato alla costruzione di soluzioni di Business Intelligence o l’implementazione di modelli predittivi e prescrittivi.

In linea generale, la creazione di un unico spazio di archiviazione dei dati comporta una serie di vantaggi tra cui:

  • Riduzione della ridondanza dell’informazione e dei conseguenti possibili errori a essa associati;
  • Maggiore facilità (in termini di tempo impiegato e di impegno profuso) nel recuperare e interpretare le informazioni di interesse;
  • Riduzione del numero di supporti fisici o virtuali su cui sono archiviati i dati, con un conseguente contenimento dei costi associati.

La Data Integration genera molteplici benefici per le aziende che si concretizzano, principalmente, in una generale riduzione della complessità, dei tempi e dei costi di gestione dei dati. Per questo motivo, INTWIG riserva un’attenzione particolare all’implementazione della Data Integration, dedicandole una fase specifica del suo metodo di gestione e di analisi del dato.

Le tipologie di dati

L’approccio di immagazzinamento e archiviazione del dato dipende dalle esigenze dell’azienda, dal numero e dalla complessità delle fonti e dal formato e dalla tipologia di dati. In tal senso, si è soliti individuare cinque differenti categorie di dati:

  1. Machine to machine, generati dall’interazione tra dispositivi elettronici (ad esempio, i dati generati dalle connessioni Wi-Fi o dai telefoni cellulari);
  2. People to machine, generati dall’interazione tra persone e dispositivi elettronici (come i dati degli acquisti di e-commerce);
  3. People to people, frutto dell’interazione tra persone (ad esempio, quelli generati dagli utenti di social network e community);
  4. Public admin data, disponibili sotto forma di database pubblici (tra cui, i cosiddetti Open Data);
  5. Enterprise data, cioè quelli archiviati internamente all’azienda (come i dati degli ERP o dei CRM).

I vantaggi della Data Integration sono ovviamente comuni e trasversali a queste 5 tipologie di dati, sebbene risultino essere maggiori nel caso di moli di dati consistenti e complesse.

Come integrare i dati in modo efficace

Nelle aziende di piccole dimensioni e con quantità di dati relativamente contenute, la Data Integration avviene spesso manualmente: i dati vengono raccolti dalle diverse fonti, ripuliti e archiviati in un unico luogo (ad esempio, un Data Warehouse o un Data Lake). Questa soluzione, tuttavia, risulta essere particolarmente dispendiosa in termini di tempo e di impegno profuso.

Nel caso di aziende più strutturate e con moli di dati maggiori, la Data Integration avviene generalmente mediante:

  • Middleware, cioè un mediatore che favorisce la normalizzazione dei dati e la loro aggregazione laddove le applicazioni ormai obsolete usate internamente all’azienda (in informatica, definite legacy) non si integrano con quelle più recenti;
  • Applicazioni software che rendono i dati provenienti dalle varie fonti compatibili tra loro, in modo da poterli trasferire liberamente da una sorgente all’altra;
  • Accesso uniforme, ossia un front-end che conferisce ai dati un aspetto uniforme, indipendentemente dalla fonte di accesso, anche se tali dati restano archiviati nella sorgente originale;
  • Sistema di storage comune, che (in contrapposizione con l’accesso uniforme) copia i dati dalla fonte originale e li salva in un sistema integrato e unificato.

L’ultima soluzione, in particolare, risulta essere quella più diffusa per l’implementazione delle principali soluzioni di data warehousing.

Gli strumenti della Data Integration per il business

Esistono diversi tool sul mercato per la realizzazione di progetti aziendali di Data Integration, come Talend o Pentaho, per citare due tra i più rinomati. La scelta dello strumento dipende necessariamente dalla quantità e dalla complessità strutturale dei dati aziendali, nonché dalle specifiche esigenze del progetto. Va comunque ricordato che la messa in comunicazione e l’integrazione dei database aziendali può essere egualmente raggiunta utilizzando tool più trasversali alle fasi di gestione e di analisi dei dati, come Alteryx o Tableau Prep. In particolare, questi strumenti, in virtù della loro natura di designer, sono in grado di mostrare graficamente e in modo efficace il flusso dei processi sottostante i vari step di Data Integration. Per configurare la migliore soluzione sulla base delle necessità e caratteristiche dell’organizzazione aziendale, risulta fondamentale affidarsi a partner specializzati nel data management, al fine di ottenere il massimo risultato possibile. Vedremo ora alcuni esempi di progetti sviluppati da INTWIG creati con un approccio tailor made. 

Esempi di integrazione dei dati aziendali

La Data Integration è una fase cruciale, in particolar modo, per una delle 9 soluzioni sviluppate da INTWIG: il Data Hub. Permette alle aziende di raccogliere e di visualizzare i dati provenienti da diverse fonti, monitorando così, in modo semplice e immediato, i KPIs rilevanti per i diversi processi di business.

Al riguardo, si può citare l’esempio di una società (attuale cliente di INTWIG) attiva nel settore finance e crowdinvesting che ha deciso di sviluppare un progetto di Data Hub al fine di restituire una lettura più organica e di maggior valore alle informazioni raccolte nei suoi database. Attraverso un processo di Data Integration e la successiva creazione di un sistema di dashboard customizzato, è stato possibile fornire al cliente uno strumento interattivo, intuitivo e costantemente aggiornato in grado di restituire informazioni chiave sugli investitori e sui progetti in corso.

Allo stesso modo, un altro cliente attuale di INTWIG, attivo nel settore della logistica di magazzino, ha deciso di sviluppare un Data Hub così da mettere in comunicazione i diversi database aziendali (tra cui quelli delle merci in entrata e in uscita e quelli delle movimentazioni interne) e da avere una visione d’insieme circa i volumi di attività, la relativa complessità e i livelli di performance. In tal modo, il cliente è ora in grado di pianificare in modo più analitico e rigoroso, ad esempio, la gestione del personale e degli spazi nel magazzino.

Conclusioni

I vantaggi associati all’integrazione dei dati aziendali sono evidenti. La digitalizzazione ha, infatti, portato nelle aziende e nelle organizzazioni quantità di dati sempre maggiori. Troppo spesso, tuttavia, queste informazioni vengono archiviate in “silos” indipendenti, con un conseguente aumento della complessità e della dispersione dell’informazione. Grazie alla sua esperienza nello sviluppo di soluzioni come il Data Hub, INTWIG guida e supporta le aziende nell’implementazione di progetti di Data integration in grado di generare valore in modo tangibile e trasversale.

SCRIVICI

Contattaci per avviare il tuo percorso di data intelligence