Üben Sie mit Professional-Data-Engineer Dumps für Google Cloud Certified Exam Questions & Answer [Q41-Q64]

Q41. Sie haben eine Abfrage, die eine BigQuery-Tabelle mithilfe einer WHERE-Klausel auf die Spalten Zeitstempel und ID filtert. Durch die Verwendung von bq query - -dry_run erfahren Sie, dass die Abfrage einen vollständigen Scan der Tabelle auslöst, obwohl der Filter für Zeitstempel und ID nur einen winzigen Teil der Gesamtdaten auswählt. Sie möchten die Menge der von BigQuery gescannten Daten mit minimalen Änderungen an bestehenden SQL-Abfragen reduzieren. Was sollten Sie tun?

Erstellen Sie für jede ID eine eigene Tabelle.

Verwenden Sie das Schlüsselwort LIMIT, um die Anzahl der zurückgegebenen Zeilen zu reduzieren.

Erstellen Sie die Tabelle mit einer Partitionierungsspalte und einer Clustering-Spalte neu.

Verwenden Sie das Flag bq query - -maximum_bytes_billed, um die Anzahl der abgerechneten Bytes zu begrenzen.

Q42. Das Marketingteam in Ihrem Unternehmen stellt regelmäßig Aktualisierungen eines Segments Ihres Kundendatensatzes bereit.
Das Marketingteam hat Ihnen eine CSV-Datei mit 1 Million Datensätzen übergeben, die in BigQuery aktualisiert werden muss. Wenn Sie die UPDATE-Anweisung in BigQuery verwenden, erhalten Sie einen quotaExceeded-Fehler. Was sollten Sie tun?

Reduzieren Sie die Anzahl der täglich aktualisierten Datensätze, um das Limit der BigQuery UPDATE DML-Anweisung einzuhalten.

Erhöhen Sie das Limit für BigQuery UPDATE DML-Anweisungen im Abschnitt Quota management der Google Cloud Platform Console.

Teilen Sie die CSV-Quelldatei in kleinere CSV-Dateien im Cloud Storage auf, um die Anzahl der BigQuery UPDATE DML-Anweisungen pro BigQuery-Auftrag zu reduzieren.

Importieren Sie die neuen Datensätze aus der CSV-Datei in eine neue BigQuery-Tabelle. Erstellen Sie einen BigQuery-Auftrag, der die neuen Datensätze mit den vorhandenen Datensätzen zusammenführt und die Ergebnisse in eine neue BigQuery-Tabelle schreibt.

Q43. Welche der folgenden Aussagen über das Wide & Deep Learning-Modell sind zutreffend? (Wählen Sie 2 Antworten aus.)

Das breite Modell wird für die Speicherung verwendet, während das tiefe Modell für die Verallgemeinerung verwendet wird.

Eine gute Anwendung für das breite und tiefe Modell ist ein Empfehlungssystem.

Das breite Modell wird für die Verallgemeinerung verwendet, während das tiefe Modell für das Einprägen verwendet wird.

Eine gute Anwendung für das breite und tiefe Modell ist ein kleines lineares Regressionsproblem.

Q44. Nach der Migration von ETL-Aufträgen zur Ausführung in BigQuery müssen Sie überprüfen, ob die Ausgabe der migrierten Aufträge mit der Ausgabe des ursprünglichen Auftrags übereinstimmt. Sie haben eine Tabelle geladen, die die Ausgabe des ursprünglichen Auftrags enthält, und möchten den Inhalt mit der Ausgabe des migrierten Auftrags vergleichen, um zu zeigen, dass sie identisch sind. Die Tabellen enthalten keine Primärschlüsselspalte, die es Ihnen ermöglichen würde, sie für den Vergleich miteinander zu verbinden.
Was sollten Sie tun?

Wählen Sie mit der Funktion RAND() Zufallsstichproben aus den Tabellen aus und vergleichen Sie die Stichproben.

Wählen Sie mit der Funktion HASH() Zufallsstichproben aus den Tabellen aus und vergleichen Sie die Stichproben.

Verwenden Sie einen Dataproc-Cluster und den BigQuery-Hadoop-Connector, um die Daten aus jeder Tabelle zu lesen und nach der Sortierung einen Hash aus Nicht-Zeitstempel-Spalten der Tabelle zu berechnen. Vergleichen Sie die Hashes der einzelnen Tabellen.

Erstellen Sie geschichtete Zufallsstichproben mit der Funktion OVER() und vergleichen Sie gleichwertige Stichproben aus jeder Tabelle.

Q45. Was ist kein triftiger Grund für eine schlechte Leistung von Cloud Bigtable?

Die Arbeitslast ist für Cloud Bigtable nicht geeignet.

Das Schema der Tabelle ist nicht korrekt aufgebaut.

Der Cloud Bigtable-Cluster hat zu viele Knoten.

Es gibt Probleme mit der Netzwerkverbindung.

Q46. Sie möchten Daten in einem Cloud-Speicher archivieren. Da einige Daten sehr sensibel sind, möchten Sie Ihre Daten nach dem "Trust No One"-Prinzip (TNO) verschlüsseln, um zu verhindern, dass die Mitarbeiter des Cloud-Anbieters Ihre Daten entschlüsseln können. Was sollten Sie tun?

Verwenden Sie gcloud kms keys creat, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel und einzigartigen zusätzlichen authentifizierten Daten (AAD) zu verschlüsseln. Verwenden Sie gsutil cp, um jede verschlüsselte Datei in den Cloud-Storage-Bucket hochzuladen, und bewahren Sie die AAD außerhalb von Google Cloud auf.

Verwenden Sie gcloud kms keys create, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel zu verschlüsseln. Verwenden Sie gsutil cpto, um jede verschlüsselte Datei in den Cloud Storage Bucket hochzuladen.
Vernichten Sie den zuvor für die Verschlüsselung verwendeten Schlüssel manuell, und drehen Sie ihn einmal.

Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der Datei .botoconfiguration an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud Storage Bucket hochzuladen. Speichern Sie den CSEK in Cloud Memorystore als permanente Speicherung des Geheimnisses.

Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der Datei .botoconfiguration an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud Storage-Bucket hochzuladen. Speichern Sie den CSEK in einem anderen Projekt, auf das nur das Sicherheitsteam zugreifen kann.

Q47. Sie arbeiten für ein Versandunternehmen, das Handscanner zum Lesen von Versandetiketten einsetzt. Ihr Unternehmen hat strenge Datenschutzstandards, die verlangen, dass die Scanner nur die persönlich identifizierbaren Informationen (PII) der Empfänger an Analysesysteme übermitteln, was gegen die Datenschutzregeln der Benutzer verstößt. Sie möchten schnell eine skalierbare Lösung mit Cloud-nativen Managed Services aufbauen, um die Weitergabe von PII an die Analysesysteme zu verhindern.
Was sollten Sie tun?

Erstellen Sie eine autorisierte Ansicht in BigQuery, um den Zugriff auf Tabellen mit sensiblen Daten zu beschränken.

Installieren Sie ein Datenvalidierungstool eines Drittanbieters auf virtuellen Maschinen der Compute Engine, um die eingehenden Daten auf sensible Informationen zu prüfen.

Verwenden Sie die Stackdriver-Protokollierung, um die durch die gesamte Pipeline geleiteten Daten zu analysieren und Transaktionen zu identifizieren, die möglicherweise sensible Informationen enthalten.

Erstellen Sie eine Cloud-Funktion, die die Themen liest und einen Aufruf an die Cloud Data Loss Prevention API macht.
Verwenden Sie die Kennzeichnung und die Vertrauensstufen, um die Daten in einem Bucket zur Überprüfung entweder durchzulassen oder unter Quarantäne zu stellen.

Q48. Ihre Wetter-App fragt alle 15 Minuten eine Datenbank ab, um die aktuelle Temperatur zu ermitteln. Das Frontend wird von Google App Engine betrieben und bedient Millionen von Nutzern. Wie sollten Sie das Frontend gestalten, um auf einen Datenbankausfall zu reagieren?

Geben Sie einen Befehl zum Neustart der Datenbankserver aus.

Wiederholung der Abfrage mit exponentiellem Backoff, bis zu einer Obergrenze von 15 Minuten.

Die Abfrage wird jede Sekunde wiederholt, bis sie wieder online ist, um die Datenstagnation zu minimieren.

Reduzieren Sie die Abfragefrequenz auf einmal pro Stunde, bis die Datenbank wieder online ist.

Q49. Die Kunden- und Auftragsdatenbanken Ihres Unternehmens sind oft stark belastet. Dies erschwert die Durchführung von Analysen, ohne den Betrieb zu beeinträchtigen. Die Datenbanken befinden sich in einem MySQL-Cluster, wobei nächtliche Backups mit mysqldump erstellt werden. Sie möchten Analysen mit minimalen Auswirkungen auf den Betrieb durchführen.
Was sollten Sie tun?

Fügen Sie dem MySQL-Cluster einen Knoten hinzu und erstellen Sie dort einen OLAP-Würfel.

Verwenden Sie ein ETL-Tool, um die Daten aus MySQL in Google BigQuery zu laden.

Verbinden Sie einen lokalen Apache-Hadoop-Cluster mit MySQL und führen Sie ETL durch.

Hängen Sie die Backups in Google Cloud SQL ein und verarbeiten Sie die Daten dann mit Google Cloud Dataproc.

Q50. Sie speichern historische Daten in einem Cloud-Speicher. Sie müssen Analysen mit den historischen Daten durchführen. Sie möchten eine Lösung verwenden, um ungültige Dateneinträge zu erkennen und Datenumwandlungen durchzuführen, die keine Programmierung oder SQL-Kenntnisse erfordern.
Was sollten Sie tun?

Verwenden Sie Cloud Dataflow mit Beam, um Fehler zu erkennen und Transformationen durchzuführen.

Verwenden Sie Cloud Dataprep mit Rezepten, um Fehler zu erkennen und Transformationen durchzuführen.

Verwenden Sie Cloud Dataproc mit einem Hadoop-Auftrag, um Fehler zu erkennen und Transformationen durchzuführen.

Verwenden Sie föderierte Tabellen in BigQuery mit Abfragen, um Fehler zu erkennen und Transformationen durchzuführen.

Q51. Welche der folgenden Aussagen über Dataflow-Pipelines trifft nicht zu?

Pipelines sind eine Reihe von Vorgängen

Pipelines stellen einen Datenverarbeitungsauftrag dar

Pipelines stellen einen gerichteten Graphen von Schritten dar

Pipelines können Daten zwischen Instanzen austauschen

Q52. Sie entwerfen das Datenbankschema für einen auf maschinellem Lernen basierenden Essensbestelldienst, der vorhersagen soll, was die Benutzer essen möchten. Hier sind einige der Informationen, die Sie speichern müssen:
Das Benutzerprofil: Was der Nutzer gerne und nicht gerne isst

Die Informationen zum Benutzerkonto: Name, Adresse, bevorzugte Essenszeiten

Die Bestellinformationen: Wann wird bestellt, woher, an wen

Die Datenbank wird zur Speicherung aller Transaktionsdaten des Produkts verwendet. Sie möchten das Datenschema optimieren. Welches Google Cloud Platform-Produkt sollten Sie verwenden?

BigQuery

Cloud-SQL

Cloud Bigtable

Cloud-Datenspeicher

Q53. Cloud Bigtable ist eine empfohlene Option für die Speicherung sehr großer Mengen von
____________________________?

Multi-Keyed-Daten mit sehr hoher Latenzzeit

Multi-Keyed-Daten mit sehr geringer Latenzzeit

Einschlüsselige Daten mit sehr geringer Latenz

Einschlüsselige Daten mit sehr hoher Latenzzeit

Q54. Welche der folgenden Aussagen über Legacy SQL und Standard SQL trifft nicht zu?

Standard-SQL ist die bevorzugte Abfragesprache für BigQuery.

Wenn Sie eine Abfrage in Legacy SQL schreiben, kann es zu einem Fehler kommen, wenn Sie versuchen, sie mit Standard SQL auszuführen.

Ein Unterschied zwischen den beiden Abfragesprachen besteht darin, wie Sie vollqualifizierte Tabellennamen angeben (d. h. Tabellennamen, die ihren zugehörigen Projektnamen enthalten).

Sie müssen für jeden Datensatz eine Abfragesprache festlegen. Die Standardeinstellung ist Standard SQL.

Q55. Sie wählen Dienste zum Schreiben und Umwandeln von JSON-Nachrichten von Cloud Pub/Sub zu BigQuery für eine Datenpipeline in Google Cloud aus. Sie möchten die Servicekosten minimieren. Außerdem möchten Sie das Volumen der Eingabedaten, die in ihrer Größe variieren, mit minimalen manuellen Eingriffen überwachen und anpassen können. Was sollten Sie tun?

Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Überwachen Sie die CPU-Auslastung des Clusters. Ändern Sie die Anzahl der Arbeitsknoten in Ihrem Cluster über die Befehlszeile.

Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Verwenden Sie den Diagnosebefehl, um ein operatives Ausgabearchiv zu erstellen. Lokalisieren Sie den Engpass und passen Sie die Cluster-Ressourcen an.

Verwenden Sie Cloud Dataflow, um Ihre Transformationen auszuführen. Überwachen Sie die Verzögerung des Auftragssystems mit Stackdriver. Verwenden Sie die Standardeinstellung für die automatische Skalierung von Arbeitsinstanzen.

Verwenden Sie Cloud Dataflow, um Ihre Transformationen auszuführen. Überwachen Sie die Gesamtausführungszeit für eine Stichprobe von Aufträgen.
Konfigurieren Sie den Auftrag so, dass er bei Bedarf andere als die standardmäßigen Compute Engine-Maschinentypen verwendet.

Q56. Sie erstellen ein Modell, das Bekleidungsempfehlungen gibt. Sie wissen, dass sich die Modevorlieben eines Nutzers im Laufe der Zeit ändern können. Deshalb bauen Sie eine Datenpipeline auf, die neue Daten in das Modell einspeist, sobald sie verfügbar sind. Wie sollten Sie diese Daten zum Trainieren des Modells verwenden?

Trainieren Sie das Modell fortlaufend nur mit den neuen Daten neu.

Das Modell wird laufend anhand einer Kombination aus vorhandenen und neuen Daten neu trainiert.

Trainieren Sie mit den vorhandenen Daten, während Sie die neuen Daten als Testsatz verwenden.

Trainieren Sie mit den neuen Daten, während Sie die vorhandenen Daten als Testsatz verwenden.

Q57. Fallstudie 1 - Flusslogistik
Überblick über das Unternehmen
Flowlogistic ist ein führender Logistik- und Lieferkettenanbieter. Das Unternehmen unterstützt Unternehmen auf der ganzen Welt bei der Verwaltung ihrer Ressourcen und deren Beförderung an den Bestimmungsort. Das Unternehmen ist schnell gewachsen und hat sein Angebot auf den Schienen-, LKW-, Flugzeug- und Seeverkehr ausgeweitet.
Hintergrund des Unternehmens
Das Unternehmen begann als regionales Speditionsunternehmen und expandierte dann in andere Logistikmärkte.
Da sie ihre Infrastruktur nicht aktualisiert haben, ist die Verwaltung und Verfolgung von Aufträgen und Sendungen zu einem Engpass geworden. Um die Abläufe zu verbessern, entwickelte Flowlogistic eine eigene Technologie zur Verfolgung von Sendungen in Echtzeit auf Paketebene. Das Unternehmen ist jedoch nicht in der Lage, diese Technologie einzusetzen, da sein auf Apache Kafka basierendes Technologiepaket das Verarbeitungsvolumen nicht bewältigen kann. Darüber hinaus möchte Flowlogistic seine Aufträge und Sendungen weiter analysieren, um festzustellen, wie sie ihre Ressourcen am besten einsetzen können.
Lösungskonzept
Flowlogistic möchte zwei Konzepte in der Cloud umsetzen:
* Nutzung der firmeneigenen Technologie in einem Echtzeit-Bestandsverfolgungssystem, das den Standort der Ladungen anzeigt
* Alle Aufträge und Versandprotokolle, die sowohl strukturierte als auch unstrukturierte Daten enthalten, sollen analysiert werden, um zu ermitteln, wie die Ressourcen am besten eingesetzt werden können und welche Märkte ausgebaut werden sollen. Sie wollen auch prädiktive Analysen nutzen, um früher zu erfahren, wann sich eine Lieferung verzögert.
Bestehendes technisches Umfeld
Die Flowlogistic-Architektur befindet sich in einem einzigen Rechenzentrum:
* Datenbanken
8 physische Server in 2 Clustern
- SQL Server - Benutzerdaten, Inventar, statische Daten
3 physische Server
- Cassandra - Metadaten, Verfolgung von Nachrichten
10 Kafka-Server - Verfolgung der Nachrichtenaggregation und Batch-Insert
* Anwendungsserver - Kunden-Frontend, Middleware für Bestellung/Kunden
60 virtuelle Maschinen auf 20 physischen Servern
- Tomcat - Java-Dienste
- Nginx - statischer Inhalt
- Batch-Server
* Speichergeräte
- iSCSI für Hosts virtueller Maschinen (VM)
- Fibre Channel Storage Area Network (FC SAN) - SQL-Server-Speicher
- Netzwerkspeicher (NAS) zur Speicherung von Bildern, Protokollen und Sicherungen
* 10 Apache Hadoop/Spark-Server
- Kern-Datensee
- Arbeitsbelastung durch Datenanalyse
* 20 verschiedene Server
- Jenkins, Überwachung, Bastion-Hosts,
Geschäftliche Anforderungen
* Aufbau einer zuverlässigen und reproduzierbaren Umgebung mit skaliertem Produktionsumfang.
* Aggregieren von Daten in einem zentralisierten Data Lake zur Analyse
* Nutzung historischer Daten zur Durchführung von Prognosen für künftige Sendungen
* Genaue Nachverfolgung jeder Sendung weltweit mit firmeneigener Technologie
* Verbesserung der geschäftlichen Flexibilität und der Innovationsgeschwindigkeit durch rasche Bereitstellung neuer Ressourcen
* Analysieren und Optimieren der Architektur für die Leistung in der Cloud
* Vollständige Umstellung auf die Cloud, wenn alle anderen Anforderungen erfüllt sind
Technische Anforderungen
* Verarbeitung von Streaming- und Batch-Daten
* Migration bestehender Hadoop-Workloads
* Sicherstellen, dass die Architektur skalierbar und elastisch ist, um den sich ändernden Anforderungen des Unternehmens gerecht zu werden.
* Nutzung verwalteter Dienste, wann immer möglich
* Verschlüsselung der Daten während des Flugs und im Ruhezustand
* SEO Statement Wir sind so schnell gewachsen, dass unsere Unfähigkeit, unsere Infrastruktur zu aktualisieren, unser weiteres Wachstum und unsere Effizienz wirklich behindert. Wir sind effizient beim Transport von Sendungen um die Welt, aber wir sind ineffizient beim Transport von Daten.
Wir müssen unsere Informationen so organisieren, dass wir leichter verstehen können, wo unsere Kunden sind und was sie versenden.
CTO-Erklärung
Die IT hat für uns nie Priorität gehabt, und so haben wir mit dem Wachstum unserer Daten nicht genug in unsere Technologie investiert. Ich habe gute Mitarbeiter, die die IT-Abteilung leiten, aber sie sind so sehr mit der Verwaltung unserer Infrastruktur beschäftigt, dass ich sie nicht dazu bringen kann, sich um die wirklich wichtigen Dinge zu kümmern, z. B. die Organisation unserer Daten, die Erstellung von Analysen und die Implementierung der Tracking-Technologie des CFO.
CFO-Erklärung
Ein Teil unseres Wettbewerbsvorteils besteht darin, dass wir uns selbst für verspätete Sendungen und Lieferungen bestrafen. Wenn wir jederzeit wissen, wo sich unsere Sendungen befinden, hat das einen direkten Einfluss auf unser Endergebnis und unsere Rentabilität. Außerdem möchte ich kein Kapital für den Aufbau einer Serverumgebung binden.
Flowlogistic führt sein Echtzeit-Bestandsverfolgungssystem ein. Die Tracking-Geräte werden alle Nachrichten zur Paketverfolgung senden, die nun an ein einziges Google Cloud Pub/Sub-Thema anstelle des Apache Kafka-Clusters gehen. Eine Abonnentenanwendung verarbeitet dann die Nachrichten für Echtzeitberichte und speichert sie in Google BigQuery für historische Analysen. Sie möchten sicherstellen, dass die Paketdaten im Laufe der Zeit analysiert werden können.
Welchen Ansatz sollten Sie wählen?

Hängen Sie den Zeitstempel an jede Nachricht in der Cloud Pub/Sub-Teilnehmeranwendung an, wenn sie empfangen wird.

Hängen Sie den Zeitstempel und die Paket-ID an die ausgehende Nachricht von jedem Publisher-Gerät an, wenn diese an Clod Pub/Sub gesendet wird.

Verwenden Sie die Funktion NOW () in BigQuery, um den Zeitpunkt des Ereignisses zu erfassen.

Verwenden Sie den automatisch generierten Zeitstempel von Cloud Pub/Sub, um die Daten zu ordnen.

Q58. MJTelco Fallstudie
Überblick über das Unternehmen
MJTelco ist ein Start-up-Unternehmen, das den Aufbau von Netzen in schnell wachsenden, unterversorgten Märkten in aller Welt plant.
Das Unternehmen besitzt Patente für innovative optische Kommunikationshardware. Auf der Grundlage dieser Patente können sie viele zuverlässige Hochgeschwindigkeits-Backbone-Verbindungen mit kostengünstiger Hardware schaffen.
Hintergrund des Unternehmens
MJTelco wurde von erfahrenen Führungskräften der Telekommunikationsbranche gegründet und nutzt Technologien, die ursprünglich zur Bewältigung von Kommunikationsproblemen im Weltraum entwickelt wurden. Grundlegend für den Betrieb des Unternehmens ist die Schaffung einer verteilten Dateninfrastruktur, die Echtzeitanalysen ermöglicht und maschinelles Lernen zur kontinuierlichen Optimierung der Topologien einschließt. Da ihre Hardware kostengünstig ist, planen sie eine Überdimensionierung des Netzes, um die Auswirkungen der dynamischen regionalen Politik auf die Verfügbarkeit von Standorten und die Kosten zu berücksichtigen.
Ihre Verwaltungs- und Betriebsteams sind rund um den Globus verteilt, wodurch viele Beziehungen zwischen Datenkonsumenten und -lieferanten in ihrem System entstehen. Nach reiflicher Überlegung entschied das Unternehmen, dass eine öffentliche Cloud die perfekte Umgebung für seine Bedürfnisse ist.
Lösungskonzept
MJTelco führt in seinen Labors ein erfolgreiches Proof-of-Concept-Projekt (PoC) durch. Sie haben zwei Hauptbedürfnisse:
* Skalierung und Härtung ihres PoC, um deutlich mehr Datenströme zu unterstützen, wenn sie auf mehr als 50.000 Installationen ansteigen.
* Sie verfeinern ihre maschinellen Lernzyklen, um die dynamischen Modelle zu überprüfen und zu verbessern, die sie zur Steuerung der Topologiedefinition verwenden.
MJTelco wird außerdem drei separate Betriebsumgebungen verwenden - Entwicklung/Test, Staging und Produktion -, um den Anforderungen bei der Durchführung von Experimenten, der Bereitstellung neuer Funktionen und der Betreuung von Produktionskunden gerecht zu werden.
Geschäftliche Anforderungen
* Skalieren Sie Ihre Produktionsumgebung mit minimalen Kosten, indem Sie Ressourcen bei Bedarf und in einer unvorhersehbaren, verteilten Telekommunikationsbenutzergemeinschaft einsetzen.
* Gewährleistung der Sicherheit ihrer geschützten Daten zum Schutz ihrer hochmodernen maschinellen Lern- und Analyseverfahren.
* Verlässlicher und rechtzeitiger Zugang zu Daten für die Analyse von verteilten Forschungsmitarbeitern
* Sie unterhalten isolierte Umgebungen, die eine schnelle Iteration ihrer maschinellen Lernmodelle unterstützen, ohne ihre Kunden zu beeinträchtigen.
Technische Anforderungen
* Gewährleistung einer sicheren und effizienten Übertragung und Speicherung von Telemetriedaten
* Schnelle Skalierung der Instanzen zur Unterstützung von 10.000 bis 100.000 Datenanbietern mit jeweils mehreren Datenströmen.
* Ermöglicht die Analyse und Präsentation anhand von Datentabellen, die bis zu 2 Jahre lang Daten speichern.
100m Rekorde/Tag
* Unterstützung der schnellen Iteration der Überwachungsinfrastruktur mit Schwerpunkt auf der Erkennung von Problemen in der Datenpipeline sowohl in Telemetrieflüssen als auch in Produktionslernzyklen.
CEO-Erklärung
Unser Geschäftsmodell beruht auf unseren Patenten, der Analytik und dem dynamischen maschinellen Lernen. Unsere kostengünstige Hardware ist so organisiert, dass sie sehr zuverlässig ist, was uns Kostenvorteile verschafft. Wir müssen unsere großen verteilten Datenpipelines schnell stabilisieren, um unsere Zuverlässigkeits- und Kapazitätsverpflichtungen zu erfüllen.
CTO-Erklärung
Unsere öffentlichen Cloud-Dienste müssen wie angekündigt funktionieren. Wir brauchen Ressourcen, die skalierbar sind und unsere Daten sicher halten. Außerdem benötigen wir Umgebungen, in denen unsere Datenwissenschaftler unsere Modelle sorgfältig untersuchen und schnell anpassen können. Da wir uns bei der Verarbeitung unserer Daten auf die Automatisierung verlassen, müssen auch unsere Entwicklungs- und Testumgebungen funktionieren, während wir iterieren.
CFO-Erklärung
Das Projekt ist zu groß, als dass wir die für die Daten und die Analyse erforderliche Hard- und Software warten könnten. Außerdem können wir es uns nicht leisten, ein Betriebsteam zu beschäftigen, das so viele Dateneinspeisungen überwacht, daher werden wir uns auf Automatisierung und Infrastruktur verlassen. Das maschinelle Lernen von Google Cloud wird es unseren quantitativen Forschern ermöglichen, an unseren hochwertigen Problemen zu arbeiten und nicht an Problemen mit unseren Datenpipelines.
Sie müssen Visualisierungen für Betriebsteams mit den folgenden Anforderungen zusammenstellen:
* Der Bericht muss die Telemetriedaten aller 50.000 Anlagen für die letzten 6 Wochen enthalten (Probenahme einmal pro Minute).
* Der Bericht darf nicht mehr als 3 Stunden gegenüber den Live-Daten verzögert sein.
* Der Aktionsbericht sollte nur suboptimale Links anzeigen.
* Die suboptimalsten Links sollten an den Anfang sortiert werden.
* Suboptimale Verbindungen können gruppiert und nach geografischen Gesichtspunkten gefiltert werden.
* Die Antwortzeit des Benutzers zum Laden des Berichts muss <5 Sekunden betragen.
Welcher Ansatz entspricht den Anforderungen?

Laden Sie die Daten in Google Sheets, verwenden Sie Formeln, um eine Metrik zu berechnen, und verwenden Sie Filter/Sortierung, um nur suboptimale Links in einer Tabelle anzuzeigen.

Laden Sie die Daten in Google BigQuery-Tabellen, schreiben Sie ein Google Apps Script, das die Daten abfragt, die Metrik berechnet und nur suboptimale Zeilen in einer Tabelle in Google Sheets anzeigt.

Laden Sie die Daten in Google Cloud Datastore-Tabellen, schreiben Sie eine Google App Engine-Anwendung, die alle Zeilen abfragt, eine Funktion zur Ableitung der Metrik anwendet und dann die Ergebnisse in einer Tabelle mithilfe der Google Diagramme und Visualisierungs-API darstellt.

Laden Sie die Daten in Google BigQuery-Tabellen, schreiben Sie einen Google Data Studio 360-Bericht, der eine Verbindung zu Ihren Daten herstellt, eine Metrik berechnet und dann einen Filterausdruck verwendet, um nur suboptimale Zeilen in einer Tabelle anzuzeigen.

Q59. Ein TensorFlow-Modell für maschinelles Lernen auf virtuellen Maschinen der Compute Engine (n2-Standard -32) benötigt zwei Tage, um das Framing abzuschließen. Das Modell hat benutzerdefinierte TensorFlow-Operationen, die teilweise auf einer CPU laufen müssen Sie wollen die Trainingszeit auf kosteneffektive Weise reduzieren. Was sollten Sie tun?

Ändern Sie den VM-Typ in n2-highmem-32

Ändern Sie den VM-Typ in e2 standard-32

Trainieren Sie das Modell mithilfe einer VM mit einem GPU-Hardwarebeschleuniger

Trainieren Sie das Modell mithilfe einer VM mit einem TPU-Hardwarebeschleuniger

Q60. Sie arbeiten an einem sensiblen Projekt mit privaten Nutzerdaten. Sie haben ein Projekt auf Google Cloud Platform eingerichtet, um Ihre Arbeit intern unterzubringen. Ein externer Berater wird Sie bei der Codierung einer komplexen Transformation in einer Google Cloud Dataflow-Pipeline für Ihr Projekt unterstützen. Wie sollten Sie die Privatsphäre der Nutzer schützen?

Gewähren Sie dem Berater die Rolle des Betrachters für das Projekt.

Erteilen Sie dem Berater die Rolle des Cloud Dataflow-Entwicklers für das Projekt.

Erstellen Sie ein Dienstkonto und erlauben Sie dem Berater, sich damit anzumelden.

Erstellen Sie eine anonymisierte Stichprobe der Daten, mit der der Berater in einem anderen Projekt arbeiten kann.

Q61. Welcher Google Cloud Platform-Dienst ist eine Alternative zu Hadoop mit Hive?

Cloud-Datenfluss

Cloud Bigtable

BigQuery

Cloud-Datenspeicher

Q62. Sie haben die kostenlose Integration zwischen Firebase Analytics und Google BigQuery aktiviert. Firebase erstellt nun täglich automatisch eine neue Tabelle in BigQuery im Format app_events_YYYYMMDD. Sie möchten alle Tabellen für die letzten 30 Tage in Legacy-SQL abfragen. Was sollten Sie tun?

Verwenden Sie die Funktion TABLE_DATE_RANGE

Verwenden Sie die Pseudospalte WHERE_PARTITIONTIME

Verwenden Sie WHERE Datum ZWISCHEN JJJJ-MM-TAG UND JJJJ-MM-TAG

Verwenden Sie SELECT IF.(Datum >= JJJJ-MM-TT AND Datum <= JJJJ-MM-TT

Q63. Welche der folgenden Aussagen über das Wide & Deep Learning-Modell sind zutreffend? (Wählen Sie 2 Antworten aus.)

Das breite Modell wird für die Speicherung verwendet, während das tiefe Modell für die Verallgemeinerung verwendet wird.

Eine gute Anwendung für das breite und tiefe Modell ist ein Empfehlungssystem.

Das breite Modell wird für die Verallgemeinerung verwendet, während das tiefe Modell für das Einprägen verwendet wird.

Eine gute Anwendung für das breite und tiefe Modell ist ein kleines lineares Regressionsproblem.

Q64. Die _________ für Cloud Bigtable ermöglicht es, Cloud Bigtable in einer Cloud Dataflow-Pipeline zu verwenden.

Cloud Dataflow-Anschluss

DataFlow SDK

BiqQuery API

BigQuery-Datenübertragungsdienst

Üben Sie mit Professional-Data-Engineer Dumps für Google Cloud Certified Exam Questions & Answer [Q41-Q64]

Eine Antwort hinterlassen Antworten abbrechen

Verwandter Beitrag

[2022] Professional-Cloud-Developer Dumps sind für sofortigen Zugriff verfügbar [Q30-Q54]

Professional-Data-Engineer Dumps PDF 2023 Programm Ihre Vorbereitung EXAM SUCCESS [Q95-Q111]

[Q66-Q85] Aktualisierte Professional-Cloud-DevOps-Engineer Dumps PDF - Professional-Cloud-DevOps-Engineer Real Valid Brain Dumps mit 166 Fragen!