Was bedeutet SQL-Extensions
SQL-Extensions
Drill erweitert SQL (siehe auch SQL Schulungen) , um Daten kleineren Umfangs auf eine Weise zu untersuchen, die mit SQL nicht möglich ist. Mit intuitiven SQL-Erweiterungen arbeiten Sie mit selbstbeschreibenden Daten und komplexen Datentypen. Zu den SQL-Erweiterungen gehören Funktionen zum Untersuchen selbstbeschreibender Daten, wie Dateien und HBase, direkt im nativen Format.
Drill bietet Sprachunterstützung für das Zeigen auf Speicher-Plugin-Schnittstellen, die Drill zur Interaktion mit Datenquellen verwendet. Verwenden Sie den Namen eines Speicher-Plugins, um eine Dateisystem- Datenbank (siehe auch Datenbank Seminare) als Präfix in Abfragen anzugeben, wenn Sie datenbankübergreifend auf Objekte verweisen. Fragen Sie Dateien, einschließlich komprimierter .gz-Dateien und Verzeichnisse, wie eine SQL-Tabelle ab. Sie können mehrere Dateien in einem Verzeichnis abfragen.
Drill erweitert die SELECT-Anweisung zum Lesen komplexer, mehrfach strukturierter Daten. Die erweiterte CREATE TABLE AS bietet die Möglichkeit, Daten komplexer/mehrfach strukturierter Datentypen zu schreiben. Drill erweitert die lexikalischen Regeln für die Arbeit mit Dateien und Verzeichnissen, wie z.B. die Verwendung von Back-Ticks für die Einbeziehung von Dateinamen, Verzeichnisnamen und reservierten Wörtern in Abfragen. Die Drill-Syntax unterstützt die Verwendung des Dateisystems als persistenten Speicher für Abfrageprofile und Diagnoseinformationen.
Erweiterungen für Hive- und HBase- Datenquellen
Drill unterstützt Hive und HBase als Plug-and-Play-Datenquelle. Drill kann in Hive erstellte Tabellen lesen, die mit Drill kompatible Datentypen verwenden. Sie können Hive-Tabellen ohne Änderungen abfragen. Sie können selbstbeschreibende Daten abfragen, ohne dass Metadatendefinitionen im Hive-Metastore erforderlich sind. Primitive, wie z. B. JOIN, unterstützen Spaltenoperationen.
Erweiterungen für JSON-Datenquellen
Um JSON-Nummern als DOUBLE oder alle JSON-Daten als VARCHAR zu lesen, verwenden Sie eine store.json-Option. Drill erweitert SQL, um den Zugriff auf sich wiederholende Werte in Arrays und Arrays innerhalb von Arrays (Array-Indizes) zu ermöglichen. Sie können diese Erweiterungen verwenden, um in tief verschachtelte Daten zu gelangen. Drill-Erweiterungen verwenden Standard-JavaScript-Notation für die Referenzierung von Datenelementen in einer Hierarchie, wie in "Analysieren von JSON" gezeigt.
Erweiterungen für Parkett-Datenquellen
SQL unterstützt nicht alle Parkett-Datentypen, so dass Drill in vielen Fällen Datentypen ableitet. Benutzer casten Datentypen, um sicherzustellen, dass sie einen bestimmten Datentyp erhalten. Drill bietet bei Parkettkonvertierungen großzügigere Casting-Möglichkeiten als SQL, wenn es sich bei den Parkettdaten um einen logischen Datentyp handelt. Sie können das mit Drill installierte Standard-DFS-Speicher-Plugin zum Lesen und Schreiben von Parkettdateien verwenden, wie im Abschnitt "Parkettformat" gezeigt.
Erweiterungen für Textdatenquellen
Drill behandelt reine Textdateien und Verzeichnisse wie Standard-SQL-Tabellen und kann auf das Schema der Daten schließen. Drill erweitert SQL zur Behandlung strukturierter Dateitypen, wie z.B. CSV-Dateien (Comma Separated Values). Eine Erweiterung der SELECT-Anweisung bietet die COLUMNS[n]-Syntax für den Zugriff auf CSV-Zeilen in einem lesbaren Format, wie in "COLUMNS[n]-Syntax" gezeigt.
Drill erweitert SQL (siehe auch SQL Schulungen) , um Daten kleineren Umfangs auf eine Weise zu untersuchen, die mit SQL nicht möglich ist. Mit intuitiven SQL-Erweiterungen arbeiten Sie mit selbstbeschreibenden Daten und komplexen Datentypen. Zu den SQL-Erweiterungen gehören Funktionen zum Untersuchen selbstbeschreibender Daten, wie Dateien und HBase, direkt im nativen Format.
Drill bietet Sprachunterstützung für das Zeigen auf Speicher-Plugin-Schnittstellen, die Drill zur Interaktion mit Datenquellen verwendet. Verwenden Sie den Namen eines Speicher-Plugins, um eine Dateisystem- Datenbank (siehe auch Datenbank Seminare) als Präfix in Abfragen anzugeben, wenn Sie datenbankübergreifend auf Objekte verweisen. Fragen Sie Dateien, einschließlich komprimierter .gz-Dateien und Verzeichnisse, wie eine SQL-Tabelle ab. Sie können mehrere Dateien in einem Verzeichnis abfragen.
Drill erweitert die SELECT-Anweisung zum Lesen komplexer, mehrfach strukturierter Daten. Die erweiterte CREATE TABLE AS bietet die Möglichkeit, Daten komplexer/mehrfach strukturierter Datentypen zu schreiben. Drill erweitert die lexikalischen Regeln für die Arbeit mit Dateien und Verzeichnissen, wie z.B. die Verwendung von Back-Ticks für die Einbeziehung von Dateinamen, Verzeichnisnamen und reservierten Wörtern in Abfragen. Die Drill-Syntax unterstützt die Verwendung des Dateisystems als persistenten Speicher für Abfrageprofile und Diagnoseinformationen.
Erweiterungen für Hive- und HBase- Datenquellen
Drill unterstützt Hive und HBase als Plug-and-Play-Datenquelle. Drill kann in Hive erstellte Tabellen lesen, die mit Drill kompatible Datentypen verwenden. Sie können Hive-Tabellen ohne Änderungen abfragen. Sie können selbstbeschreibende Daten abfragen, ohne dass Metadatendefinitionen im Hive-Metastore erforderlich sind. Primitive, wie z. B. JOIN, unterstützen Spaltenoperationen.
Erweiterungen für JSON-Datenquellen
Um JSON-Nummern als DOUBLE oder alle JSON-Daten als VARCHAR zu lesen, verwenden Sie eine store.json-Option. Drill erweitert SQL, um den Zugriff auf sich wiederholende Werte in Arrays und Arrays innerhalb von Arrays (Array-Indizes) zu ermöglichen. Sie können diese Erweiterungen verwenden, um in tief verschachtelte Daten zu gelangen. Drill-Erweiterungen verwenden Standard-JavaScript-Notation für die Referenzierung von Datenelementen in einer Hierarchie, wie in "Analysieren von JSON" gezeigt.
Erweiterungen für Parkett-Datenquellen
SQL unterstützt nicht alle Parkett-Datentypen, so dass Drill in vielen Fällen Datentypen ableitet. Benutzer casten Datentypen, um sicherzustellen, dass sie einen bestimmten Datentyp erhalten. Drill bietet bei Parkettkonvertierungen großzügigere Casting-Möglichkeiten als SQL, wenn es sich bei den Parkettdaten um einen logischen Datentyp handelt. Sie können das mit Drill installierte Standard-DFS-Speicher-Plugin zum Lesen und Schreiben von Parkettdateien verwenden, wie im Abschnitt "Parkettformat" gezeigt.
Erweiterungen für Textdatenquellen
Drill behandelt reine Textdateien und Verzeichnisse wie Standard-SQL-Tabellen und kann auf das Schema der Daten schließen. Drill erweitert SQL zur Behandlung strukturierter Dateitypen, wie z.B. CSV-Dateien (Comma Separated Values). Eine Erweiterung der SELECT-Anweisung bietet die COLUMNS[n]-Syntax für den Zugriff auf CSV-Zeilen in einem lesbaren Format, wie in "COLUMNS[n]-Syntax" gezeigt.