Adattisztítás és adatbetöltés IBM módra
A DataStage & QualityStage komponensek részei az IBM InfoSphere Information Server platformnak, így alaptermékként juthat hozzá a felhasználó.
Bár egy termék, egy grafikus felület, de két különböző céllal lehet a DataStage & QualityStage terméket használni.
A DataStage egy adatintegrációs eszköz, mely az adat feldolgozásában játszik szerepet. Segítségével fejleszthetőek olyan job-ok, melyek támogatják az adatmozgatást és adattranszformációt. Az adatok mozgatása a Data Replication eszközhöz hasonlatosan tud megvalósulni forrás- és céladatbázisok között, azonban a termék lelke a mozgatáshoz társítható adattranszformáció.
A grafikus felületen létrehozott transzformációs job-ok mind az ETL (extract-transform-load), mind az ELT (extract-load-transform) folyamatokat képesek támogatni. A transzformációs feldolgozás során a rendszer képes különböző forrásból érkező adatokat közös adatbázisba továbbítani, kulcsok alapján összerendelni összetartozó adatokat, és szükséges változásokat végrehajtani az adatokon. A forrás- és céloldalon nem csak adatbázisokkal képes dolgozni a rendszer, de a vállalat által használt alkalmazásokkal is képes direkt kapcsolatot kialakítani, legyenek azok akár éles üzemben működő rendszerek.
A transzformációs job-ok feldolgozási szakaszokból és az azok közti kapcsolatokból állnak. Egyes feldolgozási szakaszok definiálhatnak adatforrásokat, transzformációs lépéseket vagy célrendszereket. A transzformációs lépések során lehet megadni azokat az adatmódosításokat, melyek az adatok üzleti célú felhasználásához vezetnek.
A DataStage egyik legnagyobb előnye, hogy a különböző forrásokból érkező adatokat képes a vállalati sztenderdek szerint módosítani, ezzel azok már egyből formalizált állapotban válnak elérhetővé a felhasználók számára.
A QualityStage egy adattisztítást támogató eszköz, mely segítséget nyújt előre definiált adatminőségi célok megvalósításában. Segítségével szintén job-ok fejleszthetőek, melyek képesek megszüntetni az adatokban előforduló redundanciát, felismerik az elavult vagy pontatlan formátumú adatokat, ezzel segítve a felhasználókat, hogy megbízható és magas minőségű adatok álljanak rendelkezésükre.
A QualityStage szintén grafikus felületen keresztül érhető el, és a DataStage-hez hasonlóan párhuzamos feldolgozási szálak mentén alakítható ki benne az adattisztítási feldolgozási szál. A párhuzamos feldolgozási szálak segítik a job-ok időhatékony végrehajtását. Mindezen erőforrások vezérlése a korábban már említett IBM InfoSphere Information Server engine használatával történik.
A működéshez szükséges a megfelelő biztonsági szabályok kialakítása, azaz a forrás- és célrendszerek elérhetővé tétele az IBM InfoSphere Information Server részére, így a futtatott job-ok problémamentesen tudnak működni, és végeredményben képesek módosítást végrehajtani a kijelölt rendszeren/adatbázison.
Az elkészített job-ok menthetőek a termékhez tartozó Director felületen, ahol azok időzítési beállításai is megtehetőek. Az időzített futtatásoknak köszönhetően a felhasználók mindig friss adatokkal dolgozhatnak. A futásokról a job-okhoz tartozóan logok keletkeznek, melyek utólag is ellenőrizhetőek.