BI Glossar

16.11.2016: Die folgenden Ausführungen habe ich seit Jahren nicht mehr aktualisiert, da ich kaum noch mit BI-Fragestellungen zu tun habe.

Eine ungeordnete Sammlung von Stichwörtern, denen man im BI-Umfeld begegnen kann:

Anbieter und Lösungen
  • IBM
    • BLU: auch BLU Accelerator. IBMs In-Memory-Lösung ("works like a columnar analytic DBMS"). "'BLU' doesn’t stand for anything, except insofar as it’s a reference to IBM’s favorite color. It’s just a code name that stuck.".
  • Oracle
    • Exalytics: In-Memory BI-Appliance von Oracle.
    • OBIEE: Oracles BI Plattform. Basierend auf Siebel Analytics und Hyperion BI Tools. Detaillierte Informationen zu den technischen Details findet, man bei Rittman Mead Consulting - z.B. die OOW2011-Präsentation von Mark Rittman zur OBIEE-11g-Architektur.
    • Diverse: eine Liste alter BI-Produkte, die aus diesem oder jenem Grund in der Versenkung verschwunden sind.
  • Microsoft
    • Hekaton: In-Memory Engine in zukünftigen SQL Server Releases.
  • Microstrategy
    • MicroStrategy 9: "ist eine vollständig integrierte BI-Plattform, die Business Intelligence schneller, einfacher und noch anwenderfreundlicher macht". Was ich verstanden habe, ist Folgendes: Microstrategy liest aus unterschiedlichsten Quellsystemen Daten ein. Quellen können so ziemlich alle relationalen Datenbanken sein (operative OLTP-Systeme oder Datawarehouses), aber auch multidimensionale Cubes (wie SSAS, Essbase oder TM1). Der Zugriff erfolgt über ODBC (was erstaunlicherweise flott sein soll) bzw. über XML/A. Im Microstartegy System existiert dann ein semantischer Layer, der diese Quelldaten auf logische Objekte mappt. Zur Optimierung der Zugriffsperformance dienen I-Cubes, die eingelesene Daten In-Memory verfügbar halten.
  • SAP
    • SAP HANA: High Performance Analytic Appliance. In-Memory Appliance von SAP.

Techniken
  • Hadoop: ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem bekannten MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (Big Data, Petabyte-Bereich) auf Computerclustern durchzuführen. Eine nette Einleitung zum Thema liefert Gwen Shapira. Zwei weitere Artikel aus einem Hadoop FAQ von Frau Shapira findet man hier und hier.
    • Hive: "a data warehouse system for Hadoop that facilitates easy data summarization, ad-hoc queries, and the analysis of large datasets stored in Hadoop compatible file systems. Hive provides a mechanism to project structure onto this data and query the data using a SQL-like language called HiveQL."
    • HBase: "an open source, non-relational, distributed database modeled after Google's BigTable and is written in Java. It is developed as part of Apache Software Foundation's Apache Hadoop project and runs on top of HDFS (Hadoop Distributed Filesystem), providing BigTable-like capabilities for Hadoop."
  • Spark: "is a fast and general engine for large-scale data processing."
    • scheint 2014 MapReduce den Rang abzulaufen, wie man hier erfährt. Die Vorteile von Spark sind dabei (ich schreibe nur ab...):
      • The Directed Acyclic Graph processing model. (Any serious MapReduce-replacement contender will probably echo that aspect.)
      • A rich set of programming primitives in connection with that model.
      • Support also for highly-iterative processing, of the kind found in machine learning.
      • Flexible in-memory data structures, namely the RDDs (Resilient Distributed Datasets).
      • A clever approach to fault-tolerance.
  • NewSQL: "OLTP- (OnLine Transaction Processing)/short-request-oriented SQL DBMS that are newer than MySQL. Innovative MySQL engines. Transparent sharding systems that can be used with, for example, MySQL."
  • NoSQL: "NoSQL is most easily defined by what it excludes: SQL, joins, strong analytic alternatives to those, and some forms of database integrity. If you leave all four out, and you have a strong scale-out story, you’re in the NoSQL mainstream. [...] Using NoSQL can make sense when at least one of two things is paramount: low-cost scale-out or dynamic schemas." Curt Monash
    • eine recht plausible Abgrenzung der Anwendungsbereiche von klassischen RDBMS und NoSQL-Systemen liefert (einmal mehr) Curt Monash.
    • und noch eine Abgrenzung, diesmal von Cary Millsap.

Die Seite bereitet mir einige Probleme, da sie nicht nur ungeordnet, sondern auch weitgehend frei von relevantem Inhalt ist. Bis zu dem Tag, an dem es mir gelingt, Sinnvolleres zum Thema zu schreiben, sei deshalb auf Curt Monashs analytic glossary verwiesen.

Von Curt Monash gibt es auch einen Kommentar zu Gartners 2012 Magic Quadrant for Data Warehouse Database Management Systems, der allerlei interessante Anmerkungen zur aktuellen Marktsituation enthält.

Ein weiterer Aspekt, der bei der erneuten Lektüre auffällt, ist, dass die Halbwertszeit solcher Informationen arg beschränkt ist - wahrscheinlich sollte ich zu jedem Satz einen Zeitstempel einführen ...