Wichtigste Konzepte und Architektur von Snowflake¶

Snowflake basiert auf einer hochmodernen Datenplattform, die Ihnen als selbstverwalteter Dienst zur Verfügung gestellt wird. Die Datenplattform von Snowflake führt Lösungen für Datenspeicherung, Datenverarbeitung und Datenanalyse zusammen, die schneller, einfacher zu bedienen und wesentlich flexibler sind als herkömmliche Angebote.

Snowflake kombiniert ein völlig neuartiges SQL-Abfragemodul mit einer innovativen Architektur, die nativ für die Cloud entwickelt wurde. Es bietet vollständige analytische Datenbankfunktionalität für Unternehmen sowie einzigartige Features und Möglichkeiten.

Datenplattform als selbstverwalteter Dienst¶

Als selbstverwalteter Dienst bietet Snowflake die folgenden Vorteile:

Es gibt keine Hardware (virtuell oder physisch), die Sie auswählen, installieren, konfigurieren oder verwalten müssen.
Es muss praktisch keine Software installiert, konfiguriert oder verwaltet werden.
Laufende Wartung, Verwaltung, Aktualisierung und Anpassung werden von Snowflake übernommen.

Snowflake nutzt öffentliche Cloudinfrastruktur, um virtuelle Computeinstanzen und persistente Datenspeicher zu hosten. Snowflake verwaltet Software-Updates und die Infrastruktur, sodass Sie sich nicht darum kümmern müssen. Sie können Snowflake nicht lokal oder in privaten Cloudinfrastrukturen installieren und ausführen, weder On-Premises noch gehostet.

Snowflake-Architektur¶

Die Architektur von Snowflake ist eine Mischung aus herkömmlichen Shared-Disk- und Shared-Nothing-Datenbankarchitekturen. Ähnlich wie bei Shared-Disk-Architekturen verwendet Snowflake ein zentrales Datenrepository für persistente Daten, das von allen Serverknoten der Plattform zugänglich ist. Aber ähnlich wie bei Shared-Nothing-Architekturen verarbeitet Snowflake Abfragen mit MPP-Computeclustern (massive parallele Verarbeitung), wobei jeder Knoten im Cluster einen Teil des gesamten Datasets lokal speichert. Diese Hybridarchitektur, die im folgenden Diagramm dargestellt ist, bietet die Einfachheit der Datenverwaltung einer Shared-Disk-Architektur, aber mit den Leistungs- und Skalierungsvorteilen einer Shared-Nothing-Architektur:

Die einzigartige Architektur von Snowflake weist die folgenden Hauptschichten auf:

Datenbankspeicher
Compute
Clouddienste

Datenbankspeicher¶

Snowflake unterstützt die folgenden Arten von Daten:

Strukturierte Daten – wie Zeilen und Spalten in einer Tabelle: Folgt einem strengen tabellarischen Schema.
Semistrukturierte Daten – wie JSON-Datei oder eine XML-Datei: Hat ein flexibles Schema.
Unstrukturierte Daten – wie Dokumente, Bild- oder Audiodateien: Hat kein inhärentes Schema.

Snowflake unterstützt mehrere Arten von Tabellen für die Datenspeicherung, darunter die folgenden Tabellentypen:

Snowflake-Tabellen
Apache Iceberg™-Tabellen
Hybridtabellen

Snowflake-Tabellen¶

Wenn Daten in eine Snowflake-Tabelle geladen werden, ordnet Snowflake diese Daten in sein intern optimiertes, komprimiertes, spaltenförmiges Format um. Snowflake speichert diese optimierten Daten in einem Cloudspeicher. Snowflake-Tabellen eignen sich ideal für Data Warehouses.

Snowflake verwaltet alle Aspekte der Speicherung dieser Daten – einschließlich Organisation, Dateigröße, Struktur, Komprimierung, Metadaten und Statistiken. Alle Daten in Snowflake-Tabellen werden automatisch in Mikropartitionen unterteilt, bei denen es sich um zusammenhängende Speichereinheiten handelt. Mikropartitionen verbessern die Effizienz und bieten noch weitere Vorteile.

Sie können Snowflake-Tabellen verwenden, um strukturierte und semistrukturierte Daten zu speichern. Sie können auch die Datentyp FILE für unstrukturierte Daten verwenden.

Weitere Informationen zu Snowflake-Tabellen finden Sie unter Grundlegendes zu Tabellenstrukturen in Snowflake.

Apache Iceberg™-Tabellen¶

Apache Iceberg™-Tabellen für Snowflake kombinieren die Leistung und Abfrage-Semantik typischer Snowflake-Tabellen mit externem Cloud-Speicher, den Sie verwalten. Sie eignen sich ideal für bestehende Data Lakes und Data Lakehouses, die Sie nicht in Snowflake speichern können oder möchten.

Iceberg-Tabellen speichern ihre Daten- und Metadaten-Dateien an einem externen Cloudspeicherort, z. B. Amazon S3, Google Cloud Storage oder Microsoft Azure Storage. Der externe Speicher ist nicht Teil von Snowflake.

Sie können Iceberg-Tabellen verwenden, um strukturierte und semistrukturierte Daten zu speichern.

Weitere Informationen dazu finden Sie unter Apache Iceberg™-Tabellen.

Hybridtabellen¶

Hybridtabellen sind für niedrige Latenzen und hohen Durchsatz optimiert, indem indexbasierte zufällige Lese- und Schreiboperationen verwendet werden. Hybridtabellen unterstützen Zeilensperren und setzen eindeutige und referenzielle Integritätseinschränkungen durch, die für transaktionale Workloads entscheidend sind. Sie können eine Hybridtabelle zusammen mit anderen Snowflake-Tabellen und -Features verwenden, um Unistore-Workloads zu verarbeiten, die transaktionale und analytische Daten in einer einzigen Plattform zusammenführen.

Sie können Hybridtabellen verwenden, um strukturierte und semistrukturierte Daten zu speichern.

Weitere Informationen dazu finden Sie unter Hybridtabellen.

Compute¶

Ein virtuelles Warehouse ist ein Cluster, der aus Computeressourcen besteht. Virtuelle Warehouses verarbeiten SQL-Anweisungen und führen mit Snowpark Code in Sprachen wie Java, Python und Scala aus. Mit Snowpark Connect für Spark können Sie auch Apache Spark™-Workloads in virtuellen Warehouses ausführen.

Jedes virtuelle Warehouse ist ein unabhängiger Computecluster, der keine Computeressourcen mit anderen virtuellen Warehouses teilt. Dadurch hat keines der virtuellen Warehouses Einfluss auf die Leistung irgendeines anderen virtuellen Warehouses.

Weitere Informationen dazu finden Sie unter Virtuelle Warehouses.

Clouddienste¶

Die Clouddienstschicht ist eine Sammlung von Services, die die Aktivitäten in Snowflake koordinieren. Diese Dienste verbinden alle Komponenten von Snowflake miteinander, um Benutzeranforderungen von der Anmeldung bis zur Abfrageverarbeitung zu erfüllen. Die Clouddienstschicht wird auch auf Computeinstanzen ausgeführt, die vom Cloudanbieter über Snowflake bereitgestellt werden.

Folgende verwaltete Dienste gehören zu dieser Schicht:

Sicherheit, Authentifizierung und Zugriffssteuerung
Snowflake Horizon Catalog
Infrastrukturverwaltung mit Cloudplattformen
Metadatenverwaltung, einschließlich SNOWFLAKE-Datenbank und Snowflake Information Schema
Query parsing and optimization
Einhaltung von gesetzlicher Vorschriften

Integrierte Features für Ihre Workloads¶

Anstatt Daten in verschiedene Systeme zu verschieben, damit unterschiedliche Teams bestimmte Vorgänge und Aufgaben ausführen können, können Sie alle Ihre Workloads mit einem integrierten Set an Features direkt auf ihre Daten übertragen.

Diese Features unterstützen die folgenden umfassenden Bereiche der Datenintegration und Entwicklung:

Data Engineering
Analytik
AI und ML
Anwendungen und Zusammenarbeit

Data Engineering¶

Snowflake trennt Speicher und Verarbeitungsleistung, was einige bisherige Herausforderungen beim Data Engineering vereinfacht, wie z. B. das Infrastrukturmanagement und die Leistungsoptimierung. Data Engineers können sich auf die Implementierung von Pipelines konzentrieren, die Daten aufnehmen, umwandeln und bereitstellen.

Snowflake bietet verschiedene Möglichkeiten, Daten zu erfassen, darunter z. B. die folgenden Optionen:

COPY INTO <Tabelle>-Befehl – Lädt Daten aus Dateien in eine Tabelle.
Snowpipe – Lädt Daten aus Dateien, sobald sie in einem Stagingbereich verfügbar sind.
Snowpipe Streaming – Lädt Daten auf Zeilenebene kontinuierlich und mit geringer Latenz unter Verwendung der Snowflake-SDKs oder einer REST-API direkt in Snowflake-Tabellen und von Snowflake verwaltete Iceberg-Tabellen, anstatt Daten aus Dateien zu laden.
Openflow-Konnektoren – Erfasst Daten aus bestimmten Quellen mithilfe von Konnektoren auf Basis von NiFi, wie z. B. Microsoft Sharepoint und Google Drive.
Snowflake-Konnektoren – Verbinden externe Anwendungen und Systeme und streamen Daten in Snowflake.

Snowflake bietet auch verschiedene Möglichkeiten, Daten zu transformieren, darunter z. B. die folgenden Optionen:

Dynamische Tabellen – Definition von Tabellen, die automatisch auf der Grundlage der Aktualität des Ziels und einer Abfrage, die Datentransformationen durchführt, aktualisiert werden.
Streams und Aufgaben – Erfassung von Änderungen an Basisobjekten mit Streams und Definition von Aufgaben zur Durchführung von Datentransformationen.
Snowpark – Durchführung komplexerer Transformationen unter Verwendung von Programmiersprachen wie Python, Java und Scala.
dbt – Verwendung eines Open-Source-Datentransformationstools und -Frameworks zum Definieren, Testen und Bereitstellen von SQL-Transformationen.

Darüber hinaus kann SnowConvert AI Daten erfassen und umwandeln, und Snowpark Migration Accelerator kann Code von verschiedenen Plattformen in Snowflake konvertieren.

Weitere Informationen dazu finden Sie unter Übersicht zum Laden von Daten.

Analytik¶

Mit Snowflake können Sie Workloads dynamisch und bedarfsabhängig skalieren, auf verschiedene Arten von Daten zugreifen – einschließlich strukturierter, semistrukturierter und unstrukturierter Daten – und Daten auf einfache Weise freigeben. Mit diesen Features können Sie in Snowflake gespeicherte Daten analysieren, um aussagekräftige Erkenntnisse, Muster und Trends für analytische Anwendungsfälle zu extrahieren, wie z. B. Business Intelligence oder Vorhersagemodellierung.

Snowflake bietet verschiedene Möglichkeiten, Daten zu analysieren, einschließlich der folgenden Optionen:

Systemfunktionen und SQL-Konstrukte – Durchführung von Berechnungen und statistischer Analysen mit den folgenden Snowflake-Systemfunktionen und SQL-Konstrukten:
- Aggregatfunktionen – Zusammenfassung von Daten, indem Berechnungen für mehrere zusammengehörige Zeilen durchgeführt und ein einzelner Wert zurückgegeben werden.
- Fensterfunktionen – Durchführung von Berechnungen für mehrere zusammengehörige Zeilen in Partitionen für fortlaufende Vorgänge auf Teilmengen der Zeilen in jeder Partition, z. B. Berechnungen einer laufenden Summe oder eines gleitenden Durchschnitts.
- Allgemeine Tabellenausdrücke (Common Table Expressions, CTEs) – Verbessern die Lesbarkeit und Wiederverwendbarkeit komplexer Abfragen, die ggf. mehrere Schritte der Datentransformation erfordern.
Cortex AI Functions — Run unstructured analytics on text and images with large language models (LLMs) from OpenAI, Anthropic, Meta, Mistral AI, and DeepSeek.
Semantische Ansichten – Speicherung semantischer Geschäftskonzepte direkt in der Datenbank, um Geschäftsmetriken zu definieren und Geschäftsentitäten und deren Beziehungen zu modellieren.

AI und ML¶

Snowflake vereinfacht den Einsatz von Funktionen, die auf künstlicher Intelligenz (AI) und maschinellem Lernen (ML) basieren, sodass Sie AI- und ML-basiertes Feature-Engineering, Training und Inferencing mit Ihren Snowflake-Daten ausführen können. Modelle können auf Ihre aktuellen Daten in einer sicheren Umgebung zugreifen. Mit Snowflake können Sie die Kosten und Komplexität vermeiden, Ihre Daten auf eine separate Plattform für AI-und ML-Aufgaben zu verschieben.

Snowflake bietet AI- und ML-Funktionen in zwei umfassenden Suites an:

Snowflake Cortex: AI-Features, die LLMs verwenden, um unstrukturierte Daten zu verstehen, Freiform-Fragen zu beantworten und intelligente Unterstützung bereitzustellen. Cortex AI-Funktionen kann Routineaufgaben automatisieren, wie z. B. einfache Zusammenfassungen und schnelle Übersetzungen.
Snowflake ML: Features, die Sie verwenden können, um Ihre eigenen Modelle zu erstellen. ML-Funktionen ermöglichen Ihnen automatische Vorhersagen und Einblicke in Ihre Daten mithilfe von ML. Snowflake ML ist eine einheitliche Umgebung für die ML-Entwicklung.

Weitere Informationen dazu finden Sie unter KI und ML in Snowflake.

Anwendungen und Zusammenarbeit¶

Snowflake bietet zahlreiche Möglichkeiten, Anwendungen zu erstellen und sie für Ihre Teams, Partner und Kunden freizugeben. Wenn Sie Snowflake für die gemeinsame Nutzung von Daten verwenden, kontrollieren Sie den Zugriff auf die Daten und vermeiden Sie die Herausforderungen, die mit der Synchronisierung der Daten an verschiedenen Orten verbunden sind.

Die folgende Liste zeigt einige der Tools und Dienste, die Sie zum Erstellen, Bereitstellen und Verwalten von Anwendungen in Snowflake nutzen können:

Streamlit – Verwenden Sie eine Open-Source-Python-Bibliothek, um kundenspezifische Web-Apps mit einer interaktiven Benutzeroberfläche (UI) für ML und Data Science zu erstellen und freizugeben.
Snowpark Container Services – Ermöglichen das Bereitstellen, Verwalten und Skalieren von containerisierten Anwendungen direkt aus Snowflake heraus.
Snowflake Native Apps Framework – Erstellen Sie Anwendungen, die die Möglichkeiten bestimmter Snowflake-Features erweitern, indem Daten und zugehörige Geschäftslogik für andere Snowflake-Konten freigeben werden. Die Geschäftslogik einer Anwendung kann eine Streamlit-App, gespeicherte Prozeduren und Funktionen umfassen, die mit der Snowpark-API, JavaScript und SQL geschrieben wurden. Eine Snowflake Native App kann auch Container-Workloads mit Snowpark Container Services ausführen.

Snowflake unterstützt die folgenden Arten der Zusammenarbeit:

Secure Data Sharing – Ermöglicht die Freigabe ausgewählter Objekte einer Datenbank Ihres Kontos für andere Snowflake-Konten.
Freigabeangebote – Sie können anderen Snowflake-Benutzenden Daten und andere Informationen zur Verfügung stellen oder auf Daten und andere Informationen zugreifen, die von Snowflake-Anbietern freigegeben wurden. Sie können Freigabeangebote durchsuchen, auf Freigabeangebote zugreifen und Freigabeangebote für Verbrauchende privat und auf dem Snowflake Marketplace bereitstellen.
Data Clean Rooms — Define what analyses can be run against the shared data, which allows the consumer to gather insights from the data without having unrestricted access to it.

Snowgrid¶

Snowgrid ist die regions- und cloudübergreifende Technologieschicht von Snowflake. Mit Snowgrid können Sie die folgenden Ziele erreichen:

Verbinden eines Daten-Ökosystems über verschiedene Regionen und Anbieter hinweg – wie z. B. Amazon Web Services (AWS), Microsoft Azure und Google Cloud – mithilfe von Freigabeangeboten und anderen Features für die Zusammenarbeit
Konsistente Anwendung von Sicherheits- und Governance-Richtlinien über Clouds und Regionen hinweg
Fähigkeiten zur Notfallwiederherstellung und Geschäftskontinuität in allen Regionen durch Einsatz von Replikation

Weitere Informationen finden Sie unter Snowgrid.

Verbinden mit Snowflake¶

Snowflake unterstützt mehrere Möglichkeiten zum Verbinden mit dem Service:

Snowsight, eine webbasierte UI, die Sie für den Zugriff auf alle Aspekte der Verwaltung und Nutzung von Snowflake verwenden können
Befehlszeilenclients, die Sie ebenfalls für den Zugriff auf alle Aspekte der Verwaltung und Nutzung von Snowflake verwenden können, z. B. Snowflake CLI
Native APIs, mit denen Sie Snowflake-Ressourcen programmgesteuert erstellen und verwalten können, z. B. Snowflake-Python-APIs und Snowflake-REST-APIs
Treiber, die andere Anwendungen für die Verbindung zu Snowflake verwenden können, z. B. JDBC und ODBC
Native -Konnektoren, die Sie für die Entwicklung von Anwendungen zum Verbinden mit Snowflake verwenden können, z. B. Apache Kafka und Apache Spark
Technologien von Drittanbietern, die Sie verwenden können, um Anwendungen mit Snowflake zu verbinden, z. B. ETL-Tools (Extrahieren, Transformieren, Laden) wie Informatica sowie und BI-Tools (Business Intelligence) wie ThoughtSpot

Weitere Informationen dazu finden Sie unter Anmelden bei Snowflake.