Professional-Data-Engineer Dumps PDF 2023 Programm Ihre Vorbereitung EXAM SUCCESS [Q95-Q111]

NEUE FRAGE 95
Welche dieser Vorgänge können Sie über die BigQuery-Web-Benutzeroberfläche ausführen?

Laden Sie eine Datei im SQL-Format hoch.

Laden von Daten mit verschachtelten und wiederholten Feldern.

Laden Sie eine 20 MB große Datei hoch.

Hochladen mehrerer Dateien unter Verwendung eines Platzhalters.

NEUE FRAGE 96
Welche der folgenden Techniken sind Feature Engineering? (Wählen Sie 2 Antworten)

Ausgeblendete Merkmalsebenen

Priorisierung von Merkmalen

Gekreuzte Merkmalsspalten

Bucketization eines kontinuierlichen Merkmals

NEUE FRAGE 97
Ihr Unternehmen lädt CSV-Dateien (Comma-Separated Values) in Google BigQuery. Die Daten werden vollständig und erfolgreich importiert. Allerdings stimmen die importierten Daten nicht Byte für Byte mit der Quelldatei überein.
Was ist die wahrscheinlichste Ursache für dieses Problem?

Die in BigQuery geladenen CSV-Daten sind nicht als CSV gekennzeichnet.

Die CSV-Daten enthalten ungültige Zeilen, die beim Import übersprungen wurden.

Die in BigQuery geladenen CSV-Daten verwenden nicht die Standardkodierung von BigQuery.

Die CSV-Daten haben vor dem Laden in BigQuery keine ETL-Phase durchlaufen.

NEUE FRAGE 98
Ihr Unternehmen führt zum ersten Mal eine dynamische Kampagne durch, bei der verschiedene Angebote durch die Analyse von Echtzeitdaten während der Weihnachtszeit angeboten werden. Die Datenwissenschaftler sammeln Terabytes an Daten, die während der 30-tägigen Kampagne jede Stunde rapide ansteigen. Sie verwenden Google Cloud Dataflow, um die Daten vorzuverarbeiten und die Merkmalsdaten (Signale) zu sammeln, die für das maschinelle Lernmodell in Google Cloud Bigtable benötigt werden. Das Team beobachtet eine suboptimale Leistung beim Lesen und Schreiben der anfänglichen Datenmenge von 10 TB.
a. Sie wollen diese Leistung verbessern und gleichzeitig die Kosten minimieren. Was sollten sie tun?

Definieren Sie das Schema neu, indem Sie Lese- und Schreibvorgänge gleichmäßig über den Zeilenbereich der Tabelle verteilen.

Das Leistungsproblem sollte mit der Zeit behoben werden, wenn der Standort des BigDate-Clusters vergrößert wird.

Umgestaltung des Schemas zur Verwendung eines einzelnen Zeilenschlüssels zur Identifizierung von Werten, die im Cluster häufig aktualisiert werden müssen.

Umgestaltung des Schemas zur Verwendung von Zeilenschlüsseln auf der Grundlage numerischer IDs, die für jeden Benutzer, der die Angebote betrachtet, sequenziell ansteigen.

NEUE FRAGE 99
Ihr Unternehmen sammelt und analysiert seit 6 Monaten Daten in Google BigQuery. Der Großteil der analysierten Daten befindet sich in einer zeitlich unterteilten Tabelle namens events_partitioned. Um die Kosten für Abfragen zu reduzieren, hat Ihr Unternehmen eine Ansicht namens events erstellt, die nur die Daten der letzten 14 Tage abfragt. Der View ist in Legacy-SQL beschrieben. Nächsten Monat werden bestehende Anwendungen eine Verbindung zu BigQuery herstellen, um die Ereignisdaten über eine ODBC-Verbindung zu lesen. Sie müssen sicherstellen, dass die Anwendungen eine Verbindung herstellen können. Welche beiden Maßnahmen sollten Sie ergreifen? (Wählen Sie zwei.)

Erstellen Sie eine neue Ansicht über Ereignisse mit Standard-SQL

Erstellen Sie eine neue partitionierte Tabelle mit einer Standard-SQL-Abfrage

Erstellen Sie eine neue Ansicht über events_partitioned mit Standard-SQL

Erstellen Sie ein Dienstkonto für die ODBC-Verbindung, das für die Authentifizierung verwendet werden soll

Erstellen Sie eine Google Cloud Identity and Access Management (Cloud IAM)-Rolle für die ODBC-Verbindung und die gemeinsamen "Ereignisse".

NEUE FRAGE 100
Welches ist die empfohlene Zone für Ihre Compute Engine-Instanz und Cloud Bigtable-Instanz, um die bestmögliche Leistung zu erzielen?

Die Compute Engine-Instanz muss sich in der am weitesten von der Cloud Bigtable-Instanz entfernten Zone befinden.

Die Compute-Engine-Instanz und die Cloud-Bigtable-Instanz müssen sich in verschiedenen Zonen befinden.

Sowohl die Compute Engine-Instanz als auch die Cloud Bigtable-Instanz müssen sich in derselben Zone befinden.

Die Cloud Bigtable-Instanz muss sich in der gleichen Zone befinden wie alle Verbraucher Ihrer Daten.

NEUE FRAGE 101
Sie möchten Daten in einem Cloud-Speicher archivieren. Da einige Daten sehr sensibel sind, möchten Sie Ihre Daten nach dem "Trust No One"-Prinzip (TNO) verschlüsseln, um zu verhindern, dass die Mitarbeiter des Cloud-Anbieters Ihre Daten entschlüsseln können. Was sollten Sie tun?

Verwenden Sie gcloud kms keys creat, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel und einzigartigen zusätzlichen authentifizierten Daten (AAD) zu verschlüsseln. Verwenden Sie gsutil cp, um jede verschlüsselte Datei in den Cloud-Storage-Bucket hochzuladen, und bewahren Sie die AAD außerhalb von Google Cloud auf.

Verwenden Sie gcloud kms keys create, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel zu verschlüsseln. Verwenden Sie gsutil cpto, um jede verschlüsselte Datei in den Cloud Storage Bucket hochzuladen.
Vernichten Sie den zuvor für die Verschlüsselung verwendeten Schlüssel manuell, und drehen Sie ihn einmal.

Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der Datei .botoconfiguration an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud Storage Bucket hochzuladen. Speichern Sie den CSEK in Cloud Memorystore als permanente Speicherung des Geheimnisses.

Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der Datei .botoconfiguration an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud Storage-Bucket hochzuladen. Speichern Sie den CSEK in einem anderen Projekt, auf das nur das Sicherheitsteam zugreifen kann.

NEUE FRAGE 102
Sie planen den Einsatz von Cloud SQL mit MySQL. Sie müssen eine hohe Verfügbarkeit im Falle eines Zonenausfalls sicherstellen. Was sollten Sie tun?

Erstellen Sie eine Cloud SQL-Instanz in einer Zone und ein Failover-Replikat in einer anderen Zone innerhalb derselben Region.

Erstellen Sie eine Cloud SQL-Instanz in einer Zone und eine Read Replica in einer anderen Zone innerhalb derselben Region.

Erstellen Sie eine Cloud SQL-Instanz in einer Zone und konfigurieren Sie eine externe Read Replica in einer Zone in einer anderen Region.

Erstellen Sie eine Cloud SQL-Instanz in einer Region und konfigurieren Sie die automatische Sicherung in einem Cloud Storage-Bucket in derselben Region.

NEUE FRAGE 103
Sie erstellen eine neue Pipeline in Google Cloud, um IoT-Daten von Cloud Pub/Sub über Cloud Dataflow zu BigQuery zu streamen. Bei der Vorschau der Daten stellen Sie fest, dass etwa 2% der Daten beschädigt zu sein scheinen. Sie müssen die Cloud Dataflow-Pipeline ändern, um diese beschädigten Daten herauszufiltern. Was sollten Sie tun?

Hinzufügen eines SideInputs, der ein Boolean zurückgibt, wenn das Element beschädigt ist.

Fügen Sie eine ParDo-Transformation in Cloud Dataflow hinzu, um fehlerhafte Elemente zu verwerfen.

Fügen Sie eine Partitionstransformation in Cloud Dataflow hinzu, um gültige Daten von beschädigten Daten zu trennen.

Fügen Sie eine GroupByKey-Transformation in Cloud Dataflow hinzu, um alle gültigen Daten zusammenzufassen und den Rest zu verwerfen.

NEUE FRAGE 104
Fallstudie 1 - Flusslogistik
Überblick über das Unternehmen
Flowlogistic ist ein führender Logistik- und Lieferkettenanbieter. Das Unternehmen unterstützt Unternehmen auf der ganzen Welt bei der Verwaltung ihrer Ressourcen und deren Beförderung an den Bestimmungsort. Das Unternehmen ist schnell gewachsen und hat sein Angebot auf den Schienen-, LKW-, Flugzeug- und Seeverkehr ausgeweitet.
Hintergrund des Unternehmens
Das Unternehmen begann als regionales Speditionsunternehmen und expandierte dann in andere Logistikmärkte.
Da sie ihre Infrastruktur nicht aktualisiert haben, ist die Verwaltung und Verfolgung von Aufträgen und Sendungen zu einem Engpass geworden. Um die Abläufe zu verbessern, entwickelte Flowlogistic eine eigene Technologie zur Verfolgung von Sendungen in Echtzeit auf Paketebene. Das Unternehmen ist jedoch nicht in der Lage, diese Technologie einzusetzen, da sein auf Apache Kafka basierendes Technologiepaket das Verarbeitungsvolumen nicht bewältigen kann. Darüber hinaus möchte Flowlogistic seine Aufträge und Sendungen weiter analysieren, um festzustellen, wie sie ihre Ressourcen am besten einsetzen können.
Lösungskonzept
Flowlogistic möchte zwei Konzepte in der Cloud umsetzen:
* Nutzung der firmeneigenen Technologie in einem Echtzeit-Bestandsverfolgungssystem, das den Standort der Ladungen anzeigt
* Alle Aufträge und Versandprotokolle, die sowohl strukturierte als auch unstrukturierte Daten enthalten, sollen analysiert werden, um zu ermitteln, wie die Ressourcen am besten eingesetzt werden können und welche Märkte ausgebaut werden sollen. Sie wollen auch prädiktive Analysen nutzen, um früher zu erfahren, wann sich eine Lieferung verzögert.
Bestehendes technisches Umfeld
Die Flowlogistic-Architektur befindet sich in einem einzigen Rechenzentrum:
* Datenbanken
8 physische Server in 2 Clustern
- SQL Server - Benutzerdaten, Inventar, statische Daten
3 physische Server
- Cassandra - Metadaten, Verfolgung von Nachrichten
10 Kafka-Server - Verfolgung der Nachrichtenaggregation und Batch-Insert
* Anwendungsserver - Kunden-Frontend, Middleware für Bestellung/Kunden
60 virtuelle Maschinen auf 20 physischen Servern
- Tomcat - Java-Dienste
- Nginx - statischer Inhalt
- Batch-Server
* Speichergeräte
- iSCSI für Hosts virtueller Maschinen (VM)
- Fibre Channel Storage Area Network (FC SAN) - SQL-Server-Speicher
- Netzwerkspeicher (NAS) zur Speicherung von Bildern, Protokollen und Sicherungen
* 10 Apache Hadoop/Spark-Server
- Kern-Datensee
- Arbeitsbelastung durch Datenanalyse
* 20 verschiedene Server
- Jenkins, Überwachung, Bastion-Hosts,
Geschäftliche Anforderungen
* Aufbau einer zuverlässigen und reproduzierbaren Umgebung mit skaliertem Produktionsumfang.
* Aggregieren von Daten in einem zentralisierten Data Lake zur Analyse
* Nutzung historischer Daten zur Durchführung von Prognosen für künftige Sendungen
* Genaue Nachverfolgung jeder Sendung weltweit mit firmeneigener Technologie
* Verbesserung der geschäftlichen Flexibilität und der Innovationsgeschwindigkeit durch rasche Bereitstellung neuer Ressourcen
* Analysieren und Optimieren der Architektur für die Leistung in der Cloud
* Vollständige Umstellung auf die Cloud, wenn alle anderen Anforderungen erfüllt sind
Technische Anforderungen
* Verarbeitung von Streaming- und Batch-Daten
* Migration bestehender Hadoop-Workloads
* Sicherstellen, dass die Architektur skalierbar und elastisch ist, um den sich ändernden Anforderungen des Unternehmens gerecht zu werden.
* Nutzung verwalteter Dienste, wann immer möglich
* Verschlüsselung der Daten während des Flugs und im Ruhezustand
* SEO Statement Wir sind so schnell gewachsen, dass unsere Unfähigkeit, unsere Infrastruktur zu aktualisieren, unser weiteres Wachstum und unsere Effizienz wirklich behindert. Wir sind effizient beim Transport von Sendungen um die Welt, aber wir sind ineffizient beim Transport von Daten.
Wir müssen unsere Informationen so organisieren, dass wir leichter verstehen können, wo unsere Kunden sind und was sie versenden.
CTO-Erklärung
Die IT hat für uns nie Priorität gehabt, und so haben wir mit dem Wachstum unserer Daten nicht genug in unsere Technologie investiert. Ich habe gute Mitarbeiter, die die IT-Abteilung leiten, aber sie sind so sehr mit der Verwaltung unserer Infrastruktur beschäftigt, dass ich sie nicht dazu bringen kann, sich um die wirklich wichtigen Dinge zu kümmern, z. B. die Organisation unserer Daten, die Erstellung von Analysen und die Implementierung der Tracking-Technologie des CFO.
CFO-Erklärung
Ein Teil unseres Wettbewerbsvorteils besteht darin, dass wir uns selbst für verspätete Sendungen und Lieferungen bestrafen. Wenn wir jederzeit wissen, wo sich unsere Sendungen befinden, hat das einen direkten Einfluss auf unser Endergebnis und unsere Rentabilität. Außerdem möchte ich kein Kapital für den Aufbau einer Serverumgebung binden.
Der CEO von Flowlogistic möchte einen schnellen Einblick in seinen Kundenstamm gewinnen, damit sein Vertriebsteam im Außendienst besser informiert ist. Dieses Team ist technisch nicht sehr versiert und hat deshalb ein Visualisierungstool gekauft, um die Erstellung von BigQuery-Berichten zu vereinfachen. Allerdings sind sie mit den vielen Daten in der Tabelle überfordert und geben viel Geld für Abfragen aus, um die benötigten Daten zu finden. Sie möchten das Problem auf die kostengünstigste Weise lösen. Was sollten Sie tun?

Exportieren Sie die Daten zur Virtualisierung in ein Google Sheet.

Erstellen Sie eine zusätzliche Tabelle mit nur den erforderlichen Spalten.

Erstellen Sie eine Ansicht auf die Tabelle, die dem Virtualisierungstool vorgelegt werden soll.

Erstellen Sie Identitäts- und Zugriffsmanagement (IAM)-Rollen für die entsprechenden Spalten, damit nur diese in einer Abfrage erscheinen.

NEUE FRAGE 105
Wenn Sie ein maschinelles Lernmodell erstellen möchten, das den Kurs einer bestimmten Aktie auf der Grundlage ihrer jüngsten Kursentwicklung vorhersagt, welche Art von Schätzer sollten Sie dann verwenden?

Unüberwachtes Lernen

Regressor

Klassifikator

Clustering-Schätzer

NEUE FRAGE 106
Sie entwerfen eine Pipeline, die Anwendungsereignisse in einem Pub/Sub-Thema veröffentlicht. Sie müssen Ereignisse in stündlichen Intervallen aggregieren, bevor Sie die Ergebnisse zur Analyse in BigQuery laden. Ihre Lösung muss skalierbar sein, damit sie große Mengen von Ereignissen verarbeiten und in BigQuery laden kann. Was sollten Sie tun?

Erstellen eines Streaming-Dataflow-Jobs, der kontinuierlich aus dem Pub/Sub-Thema liest und die erforderlichen Aggregationen mit Hilfe von Tumbling Windows durchführt

Planen Sie einen Batch-Dataflow-Job für die stündliche Ausführung, der alle verfügbaren Nachrichten aus dem Pub-Sub-Thema abruft und die erforderlichen Aggregationen durchführt.

Planen Sie eine Cloud-Funktion für die stündliche Ausführung, die alle verwertbaren Nachrichten aus dem Pub/Sub-Thema abruft und die erforderlichen Aggregationen durchführt.

Erstellen Sie eine Cloud-Funktion zur Durchführung der erforderlichen Datenverarbeitung, die jedes Mal, wenn eine neue Nachricht im Thema veröffentlicht wird, über den Pub/Sub-Trigger ausgeführt wird.

NEUE FRAGE 107
Welches sind zwei Methoden, die zur Denormalisierung von Tabellen in BigQuery verwendet werden können?

1) Aufteilung der Tabelle in mehrere Tabellen; 2) Verwendung einer partitionierten Tabelle

1) Tabellen zu einer Tabelle verbinden; 2) verschachtelte wiederholte Felder verwenden

1) Verwenden Sie eine partitionierte Tabelle; 2) Verbinden Sie Tabellen zu einer einzigen Tabelle

1) verschachtelte wiederholte Felder verwenden; 2) eine partitionierte Tabelle verwenden

NEUE FRAGE 108
Sie entwickeln einen Speicher für sehr große Textdateien für eine Datenpipeline in der Google Cloud. Sie möchten ANSI-SQL-Abfragen unterstützen. Sie möchten auch die Komprimierung und das parallele Laden von den Eingabespeicherorten unter Verwendung der von Google empfohlenen Verfahren unterstützen. Was sollten Sie tun?

Umwandlung von Textdateien in komprimierte Avro-Dateien mit Cloud Dataflow. Verwenden Sie BigQuery für die Speicherung und Abfrage.

Umwandlung von Textdateien in komprimierte Avro-Dateien mit Cloud Dataflow. Verwenden Sie Cloud Storage und BigQuery permanent verknüpfte Tabellen für Abfragen.

Komprimieren Sie Textdateien mit Hilfe der Grid Computing Tools in gzip. Verwenden Sie BigQuery für die Speicherung und Abfrage.

Komprimieren Sie Textdateien mit den Grid Computing Tools zu gzip. Verwenden Sie den Cloud-Speicher und importieren Sie die Daten dann in Cloud Bigtable für Abfragen.

NEUE FRAGE 109
Verarbeitet Dataflow Batch-Datenpipelines oder Streaming-Datenpipelines?

Nur Batch-Datenpipelines

Sowohl Batch- als auch Streaming-Daten-Pipelines

Nur Streaming Data Pipelines

Keiner der oben genannten Punkte

NEUE FRAGE 110
Sie wählen Dienste zum Schreiben und Umwandeln von JSON-Nachrichten von Cloud Pub/Sub zu BigQuery für eine Datenpipeline in Google Cloud aus. Sie möchten die Servicekosten minimieren. Außerdem möchten Sie das Volumen der Eingabedaten, die in ihrer Größe variieren, mit minimalen manuellen Eingriffen überwachen und anpassen können. Was sollten Sie tun?

Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Überwachen Sie die CPU-Auslastung des Clusters. Ändern Sie die Anzahl der Arbeitsknoten in Ihrem Cluster über die Befehlszeile.

Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Verwenden Sie den Diagnosebefehl, um ein operatives Ausgabearchiv zu erstellen. Lokalisieren Sie den Engpass und passen Sie die Cluster-Ressourcen an.

Verwenden Sie Cloud Dataflow, um Ihre Transformationen auszuführen. Überwachen Sie die Verzögerung des Auftragssystems mit Stackdriver. Verwenden Sie die Standardeinstellung für die automatische Skalierung von Arbeitsinstanzen.

Verwenden Sie Cloud Dataflow, um Ihre Transformationen auszuführen. Überwachen Sie die Gesamtausführungszeit für eine Stichprobe von Aufträgen.
Konfigurieren Sie den Auftrag so, dass er bei Bedarf andere als die standardmäßigen Compute Engine-Maschinentypen verwendet.

NEUE FRAGE 111
Wie kann man ein neuronales Netz dazu bringen, über die Beziehungen zwischen Kategorien in einem kategorialen Merkmal zu lernen?

Erstellen einer Multi-Hot-Spalte

Erstellen einer One-Hot-Spalte

Einen Hash Bucket erstellen

Eine Einbettungsspalte erstellen