Talend Open Studio ETL – Einführung

ETL steht für

  • Extract
  • Transform
  • Load

Talend Open Studio ist eine Entwicklungsumgebung, die sich genau auf diese 3 ETL-Funktionen spezialisiert hat. Extract, Transform und Load werden hierbei sehr weit gegriffen und zur Instrumentalisierung werden weitere Komponenten angeboten, die weit mehr ermöglichen als Daten von einer Datenquelle zur anderen zu schieben.

Wozu kann man es anwenden?

  • Daten extrahieren, in Informationen wandeln oder Datentypen wandeln, in Zielsystem laden…
  • Datenbestände unterschiedlicher Systeme können zusammengeführt, verglichen und normalisiert werden
  • Import / Export

Vorteile der Entwicklungsumgebung Talend Open Studio (TOS)

  • „Projektorientierte “Entwicklungsumgebung in Eclipse
  • Als Zielsprache für ein Projekt ist JAVA oder PERL wählbar
  • Grafische Entwicklung
  • Ausführung auf jedem Perl/Java-fähigen Server

Vorgehen in TOS

  • In TOS definiert man einen neuen Job aus vorgefertigten Bausteinen, die einzelne abrufbare Parameter haben
  • Datenströme
    • Datenquellen (Input) und Datensenken (Output) lassen sich miteinander verbinden
    • Der Datenstrom zwischen Quelle und Senke erhält automatische einen Namen „row…“ und  erbt das Schema bzw. Spaltendefinition der Datenquelle
  • Instrumentalisierung und Verarbeitung
    • Einige TOS-Bausteine verwandeln einen Datenstrom in eine Iteration, – es wird also einmal je Datensatz eine Aktion (Iteration) ausgeführt
    • Fertige Jobs können als Job exportiert werden und laufen dann auf jeder Perl – oder Java-fähigen Umgebung
  • Variablen lassen sich als Contextfile hinterlegen, so dass man einen Job schnell an neue Anforderungen anpassen kann. Das Kontextfile wird als Parameter beim Start des Jobs als Startparameter mit übergeben
Talend Open Studio - Job Design

Talend Open Studio - Job Design

Begriffe

Job Design
Grafische Entwicklung eines Jobs
Palette
Alle Komponenten für Ein-Ausgabe und Interaktion
–Datenbanken wie Oracle, MySQL, MSSQL, SAP können direkt angesprochen werden
–Textdateien in beliebigen Formaten können für Ein- und Ausgabe genutzt werden
–Zur Instrumentalisierung: tMsgBox, Notiz, tLogRow, tFileOutputDelimited
Folgeartikel (folgen)…

Hinterlasse eine Antwort