Diese Seite wurde exportiert von Free Exams Dumps Materials [ http://exams.dumpsmaterials.com ] Exportdatum:Wed Dec 4 18:58:15 2024 / +0000 GMT ___________________________________________________ Titel: Practice with Professional-Data-Engineer Dumps for Google Cloud Certified Exam Questions & Answer [Q41-Q64] --------------------------------------------------- Praxis mit Professional-Data-Engineer Dumps für Google Cloud Certified Exam Fragen & Antworten ECHTE Professional-Data-Engineer Prüfungsfragen mit 100% Erstattungsgarantie Die Google Professional-Data-Engineer-Prüfung ist eine Zertifizierung, die von Google für Fachleute angeboten wird, die sich auf Data Engineering spezialisiert haben. Die Professional-Data-Engineer-Prüfung wurde entwickelt, um das Verständnis der Kandidaten für Datenverarbeitungssysteme, Datenmodellierung, Data Governance und Datentransformation zu testen. Die Zertifizierung zum Google Certified Professional Data Engineer zielt darauf ab, das Fachwissen des Kandidaten in Bezug auf die Data-Engineering-Technologien der Google Cloud Platform und seine Fähigkeit, effektive Datenlösungen zu entwerfen und zu entwickeln, zu bestätigen. Q41. Sie haben eine Abfrage, die eine BigQuery-Tabelle mithilfe einer WHERE-Klausel auf die Spalten Zeitstempel und ID filtert. Durch die Verwendung von bq query - -dry_run erfahren Sie, dass die Abfrage einen vollständigen Scan der Tabelle auslöst, obwohl der Filter für Zeitstempel und ID nur einen winzigen Teil der Gesamtdaten auswählt. Sie möchten die Menge der von BigQuery gescannten Daten mit minimalen Änderungen an bestehenden SQL-Abfragen reduzieren. Was sollten Sie tun? Erstellen Sie für jede ID eine eigene Tabelle. Verwenden Sie das Schlüsselwort LIMIT, um die Anzahl der zurückgegebenen Zeilen zu reduzieren. Erstellen Sie die Tabelle mit einer Partitionierungsspalte und einer Clustering-Spalte neu. Verwenden Sie die Abfrage bq - -maximum_bytes_billed, um die Anzahl der abgerechneten Bytes zu begrenzen. Q42. Das Marketingteam Ihres Unternehmens aktualisiert regelmäßig ein Segment Ihres Kundendatensatzes. Das Marketingteam hat Ihnen eine CSV-Datei mit 1 Million Datensätzen übergeben, die in BigQuery aktualisiert werden muss. Wenn Sie die UPDATE-Anweisung in BigQuery verwenden, erhalten Sie einen quotaExceeded-Fehler. Was sollten Sie tun? Reduzieren Sie die Anzahl der täglich aktualisierten Datensätze, um das Limit der BigQuery UPDATE DML-Anweisung einzuhalten. Erhöhen Sie das Limit für BigQuery UPDATE DML-Anweisungen im Bereich Quota Management der Google Cloud Platform Console. Teilen Sie die CSV-Quelldatei in kleinere CSV-Dateien in Cloud Storage auf, um die Anzahl der BigQuery UPDATE DML-Anweisungen pro BigQuery-Auftrag zu reduzieren. Importieren Sie die neuen Datensätze aus der CSV-Datei in eine neue BigQuery-Tabelle. Erstellen Sie einen BigQuery-Auftrag, der die neuen Datensätze mit den vorhandenen Datensätzen zusammenführt und die Ergebnisse in eine neue BigQuery-Tabelle schreibt. https://cloud.google.com/blog/products/gcp/performing-large-scale-mutations-in-bigqueryQ43. Welche der folgenden Aussagen über das Wide & Deep Learning-Modell sind zutreffend? (Wählen Sie 2 Antworten aus.) Das breite Modell wird für die Speicherung verwendet, während das tiefe Modell für die Verallgemeinerung verwendet wird. Eine gute Anwendung für das breite und tiefe Modell ist ein Empfehlungssystem. Das breite Modell wird zur Verallgemeinerung verwendet, während das tiefe Modell zum Einprägen verwendet wird. Ein guter Anwendungsfall für das breite und tiefe Modell ist ein kleines lineares Regressionsproblem. ErklärungKönnen wir Computern beibringen, wie Menschen zu lernen, indem wir die Leistung von Gedächtnis und Verallgemeinerung kombinieren? Diese Frage ist nicht leicht zu beantworten, aber durch das gemeinsame Training eines breiten linearen Modells (für die Erinnerung) und eines tiefen neuronalen Netzes (für die Verallgemeinerung) kann man die Stärken beider Modelle kombinieren und so einen Schritt weiter kommen. Bei Google nennen wir das "Wide & Deep Learning". Es ist nützlich für allgemeine, groß angelegte Regressions- und Klassifizierungsprobleme mit spärlichen Eingaben (kategorische Merkmale mit einer großen Anzahl möglicher Merkmalswerte), wie z. B. Empfehlungssysteme, Such- und Ranking-Probleme.Referenz: https://research.googleblog.com/2016/06/wide-deep-learning-better-together-with.htmlQ44. Nach der Migration von ETL-Aufträgen zur Ausführung in BigQuery müssen Sie überprüfen, ob die Ausgabe der migrierten Aufträge mit der Ausgabe des Originals übereinstimmt. Sie haben eine Tabelle geladen, die die Ausgabe des ursprünglichen Auftrags enthält, und möchten den Inhalt mit der Ausgabe des migrierten Auftrags vergleichen, um zu zeigen, dass sie identisch sind. Die Tabellen enthalten keine Primärschlüsselspalte, die es Ihnen ermöglichen würde, sie für den Vergleich miteinander zu verknüpfen.Was sollten Sie tun? Wählen Sie Zufallsstichproben aus den Tabellen mit Hilfe der Funktion RAND() aus und vergleichen Sie die Stichproben. Wählen Sie Zufallsstichproben aus den Tabellen mit Hilfe der Funktion HASH() aus und vergleichen Sie die Stichproben. Verwenden Sie einen Dataproc-Cluster und den BigQuery-Hadoop-Connector, um die Daten aus jeder Tabelle zu lesen und nach der Sortierung einen Hash aus Nicht-Zeitstempel-Spalten der Tabelle zu berechnen. Vergleichen Sie die Hashes der einzelnen Tabellen. Erstellen Sie geschichtete Zufallsstichproben mit der Funktion OVER() und vergleichen Sie entsprechende Stichproben aus jeder Tabelle. Vollständiger Vergleich mit dieser Option, der Rest ist ein Stichprobenvergleich, der nicht sicherstellt, dass alle Daten in Ordnung sind.Q45. Was ist kein gültiger Grund für eine schlechte Leistung von Cloud Bigtable? Die Arbeitslast ist nicht für Cloud Bigtable geeignet. Das Schema der Tabelle ist nicht richtig entworfen. Der Cloud Bigtable-Cluster hat zu viele Knoten. Es gibt Probleme mit der Netzwerkverbindung. ErklärungDer Cloud Bigtable-Cluster verfügt nicht über genügend Knoten. Wenn Ihr Cloud Bigtable-Cluster überlastet ist, kann das Hinzufügen weiterer Knoten die Leistung verbessern. Verwenden Sie die Überwachungstools, um zu prüfen, ob der Cluster überlastet ist.Referenz: https://cloud.google.com/bigtable/docs/performanceQ46. Sie möchten Daten in Cloud Storage archivieren. Da einige Daten sehr sensibel sind, möchten Sie Ihre Daten nach dem "Trust No One"-Ansatz (TNO) verschlüsseln, um zu verhindern, dass die Mitarbeiter des Cloud-Anbieters Ihre Daten entschlüsseln. Was sollten Sie tun? Verwenden Sie gcloud kms keys creat, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel und einzigartigen zusätzlichen authentifizierten Daten (AAD) zu verschlüsseln. Verwenden Sie gsutil cp, um jede verschlüsselte Datei in den Cloud-Storage-Bucket hochzuladen, und bewahren Sie die AAD außerhalb von Google Cloud auf. Verwenden Sie gcloud kms keys create, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel zu verschlüsseln. Verwenden Sie gsutil cpto, um jede verschlüsselte Datei in den Cloud-Storage-Bucket hochzuladen, zerstören Sie den zuvor für die Verschlüsselung verwendeten Schlüssel manuell und rotieren Sie ihn einmal. Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der .botoconfiguration-Datei an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud Storage-Bucket hochzuladen. Speichern Sie den CSEK in Cloud Memorystore als permanente Speicherung des Geheimnisses. Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der Datei .botoconfiguration an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud-Storage-Bucket hochzuladen. Speichern Sie den CSEK in einem anderen Projekt, auf das nur das Sicherheitsteam zugreifen kann. Q47. Sie arbeiten für ein Versandunternehmen, das Handscanner zum Lesen von Versandetiketten verwendet. Ihr Unternehmen hat strenge Datenschutzstandards, die verlangen, dass die Scanner nur die persönlich identifizierbaren Informationen (PII) der Empfänger an Analysesysteme übertragen, was gegen die Datenschutzregeln der Benutzer verstößt. Sie möchten schnell eine skalierbare Lösung mit Cloud-nativen verwalteten Diensten erstellen, um die Weitergabe von PII an die Analysesysteme zu verhindern. Erstellen Sie eine autorisierte Ansicht in BigQuery, um den Zugriff auf Tabellen mit sensiblen Daten zu beschränken. Installieren Sie ein Datenvalidierungstool eines Drittanbieters auf den virtuellen Maschinen von Compute Engine, um die eingehenden Daten auf sensible Informationen zu prüfen. Verwenden Sie die Stackdriver-Protokollierung, um die Daten zu analysieren, die die gesamte Pipeline durchlaufen haben, um Transaktionen zu identifizieren, die sensible Informationen enthalten könnten. Erstellen Sie eine Cloud-Funktion, die die Themen liest und die Cloud Data Loss Prevention-API aufruft. Verwenden Sie das Tagging und die Vertraulichkeitsstufen, um die Daten in einem Bucket zur Überprüfung entweder durchzulassen oder unter Quarantäne zu stellen. Q48. Ihre Wetter-App fragt alle 15 Minuten eine Datenbank ab, um die aktuelle Temperatur zu ermitteln. Das Frontend wird von Google App Engine betrieben und bedient Millionen von Nutzern. Wie sollte das Frontend auf einen Datenbankausfall reagieren? Geben Sie einen Befehl zum Neustart der Datenbankserver aus. Wiederholen Sie die Abfrage mit exponentiellem Backoff, bis zu einer Obergrenze von 15 Minuten. Wiederholen Sie die Abfrage jede Sekunde, bis sie wieder online ist, um die Staleness der Daten zu minimieren. Reduzieren Sie die Abfragefrequenz auf einmal pro Stunde, bis die Datenbank wieder online ist. Erläuterung/Referenz:Q49. Die Kunden- und Auftragsdatenbanken Ihres Unternehmens sind oft stark belastet. Dies erschwert die Durchführung von Analysen, ohne den Betrieb zu beeinträchtigen. Die Datenbanken befinden sich in einem MySQL-Cluster, wobei nächtliche Backups mit mysqldump erstellt werden. Sie möchten Analysen mit minimalen Auswirkungen auf den Betrieb durchführen. Fügen Sie einen Knoten zum MySQL-Cluster hinzu und erstellen Sie dort einen OLAP-Würfel. Verwenden Sie ein ETL-Werkzeug, um die Daten aus MySQL in Google BigQuery zu laden. Verbinden Sie einen lokalen Apache-Hadoop-Cluster mit MySQL und führen Sie ETL durch. Binden Sie die Backups in Google Cloud SQL ein und verarbeiten Sie die Daten dann mit Google Cloud Dataproc. Q50. Sie speichern historische Daten in Cloud Storage. Sie müssen Analysen mit den historischen Daten durchführen. Sie möchten eine Lösung zur Erkennung ungültiger Dateneinträge und zur Durchführung von Datentransformationen verwenden, die keine Programmierung oder SQL-Kenntnisse erfordert.Was sollten Sie tun? Verwenden Sie Cloud Dataflow mit Beam, um Fehler zu erkennen und Transformationen durchzuführen. Verwenden Sie Cloud Dataprep mit Rezepten, um Fehler zu erkennen und Transformationen durchzuführen. Verwenden Sie Cloud Dataproc mit einem Hadoop-Job, um Fehler zu erkennen und Transformationen durchzuführen. Verwenden Sie föderierte Tabellen in BigQuery mit Abfragen, um Fehler zu erkennen und Transformationen durchzuführen. Q51. Welche der folgenden Aussagen zu Dataflow-Pipelines trifft nicht zu? Pipelines sind eine Reihe von Operationen Pipelines stellen eine Datenverarbeitungsaufgabe dar Pipelines stellen einen gerichteten Graphen von Schritten dar Pipelines können Daten zwischen Instanzen austauschen Die Daten und Transformationen in einer Pipeline sind nur für diese Pipeline bestimmt und gehören ihr. Während Ihr Programm mehrere Pipelines erstellen kann, können Pipelines keine Daten oder Transformationen gemeinsam nutzenQ52. Sie entwerfen das Datenbankschema für einen auf maschinellem Lernen basierenden Essensbestelldienst, der vorhersagen soll, was die Benutzer essen möchten. Die folgenden Informationen müssen Sie speichern:Das Benutzerprofil: Was der Benutzer gerne isst und was er nicht magDie Informationen zum Benutzerkonto: Name, Adresse, bevorzugte EssenszeitenDie Bestellinformationen: Wann wird bestellt, von wo, an wenDie Datenbank wird verwendet, um alle Transaktionsdaten des Produkts zu speichern. Sie möchten das Datenschema optimieren. Welches Google Cloud Platform-Produkt sollten Sie verwenden? BigQuery Cloud SQL Cloud Bigtable Cloud-Datenspeicher Q53. Cloud Bigtable ist eine empfohlene Option für die Speicherung sehr großer Mengen von____________________________? Multi-Keyed-Daten mit sehr hoher Latenzzeit Daten mit mehreren Schlüsseln und sehr geringer Latenzzeit Single-Keyed-Daten mit sehr geringer Latenzzeit single-keyed Daten mit sehr hoher Latenzzeit ErläuterungCloud Bigtable ist eine spärlich bestückte Tabelle, die auf Milliarden von Zeilen und Tausende von Spalten skaliert werden kann, so dass Sie Terabytes oder sogar Petabytes an Daten speichern können. Ein einzelner Wert in jeder Zeile wird indiziert; dieser Wert wird als Zeilenschlüssel bezeichnet. Cloud Bigtable ist ideal für die Speicherung sehr großer Mengen von Daten mit nur einem Schlüssel und sehr geringer Latenz. Sie unterstützt einen hohen Lese- und Schreibdurchsatz bei geringer Latenz und ist eine ideale Datenquelle für MapReduce-Operationen. https://cloud.google.com/bigtable/docs/overviewQ54. Welche der folgenden Aussagen über Legacy SQL und Standard SQL trifft nicht zu? Standard SQL ist die bevorzugte Abfragesprache für BigQuery. Wenn Sie eine Abfrage in Legacy SQL schreiben, wird möglicherweise ein Fehler generiert, wenn Sie versuchen, sie mit Standard SQL auszuführen. Ein Unterschied zwischen den beiden Abfragesprachen besteht darin, wie Sie vollqualifizierte Tabellennamen angeben (d. h. Tabellennamen, die den zugehörigen Projektnamen enthalten). Sie müssen für jedes Dataset eine Abfragesprache festlegen; die Standardeinstellung ist Standard-SQL. Sie legen nicht für jedes Dataset eine Abfragesprache fest. Standard-SQL ist seit der Veröffentlichung von BigQuery 2.0 die bevorzugte Abfragesprache. In Legacy-SQL verwenden Sie zur Abfrage einer Tabelle mit einem projektqualifizierten Namen den Doppelpunkt : als Trennzeichen. Aufgrund der Unterschiede in der Syntax zwischen den beiden Abfragesprachen (z. B. bei projektqualifizierten Tabellennamen) kann eine in Legacy-SQL geschriebene Abfrage einen Fehler erzeugen, wenn Sie versuchen, sie mit Standard-SQL auszuführen.Referenz:https://cloud.google.com/bigquery/docs/reference/standard-sql/migrating-from-legacy-sqlQ55. Sie wählen Dienste zum Schreiben und Umwandeln von JSON-Nachrichten von Cloud Pub/Sub zu BigQuery für eine Datenpipeline in Google Cloud aus. Sie möchten die Servicekosten minimieren. Außerdem möchten Sie das Volumen der Eingabedaten, die in ihrer Größe variieren, mit minimalen manuellen Eingriffen überwachen und anpassen können. Was sollten Sie tun? Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Überwachen Sie die CPU-Auslastung des Clusters. Ändern Sie die Anzahl der Arbeitsknoten in Ihrem Cluster über die Befehlszeile. Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Verwenden Sie den Diagnosebefehl, um ein operatives Output-Archiv zu erstellen. Lokalisieren Sie den Engpass und passen Sie die Cluster-Ressourcen an. Verwenden Sie Cloud Dataflow, um Ihre Transformationen auszuführen. Überwachen Sie die Verzögerung des Jobsystems mit Stackdriver. Verwenden Sie die Standardeinstellung für die automatische Skalierung von Arbeitsinstanzen. Verwenden Sie Cloud Dataflow, um Ihre Transformationen auszuführen. Überwachen Sie die Gesamtausführungszeit für eine Stichprobe von Aufträgen und konfigurieren Sie den Auftrag so, dass er bei Bedarf nicht standardmäßige Compute Engine-Maschinentypen verwendet. ErläuterungQ56. Sie erstellen ein Modell, um Bekleidungsempfehlungen zu geben. Sie wissen, dass sich das Modeverhalten eines Benutzers im Laufe der Zeit ändern kann. Daher erstellen Sie eine Datenpipeline, die neue Daten in das Modell einspeist, sobald sie verfügbar sind. Wie sollten Sie diese Daten zum Trainieren des Modells verwenden? Trainieren Sie das Modell fortlaufend nur mit den neuen Daten. Trainieren Sie das Modell fortlaufend anhand einer Kombination aus vorhandenen und neuen Daten. Trainieren Sie mit den vorhandenen Daten, während Sie die neuen Daten als Testsatz verwenden. Trainieren Sie auf den neuen Daten, während Sie die vorhandenen Daten als Testsatz verwenden. Q57. Fallstudie 1 - FlowlogisticUnternehmensübersichtFlowlogistic ist ein führender Logistik- und Lieferkettenanbieter. Das Unternehmen unterstützt Unternehmen auf der ganzen Welt bei der Verwaltung ihrer Ressourcen und deren Transport zum endgültigen Bestimmungsort. Das Unternehmen ist schnell gewachsen und hat sein Angebot auf den Schienen-, Lkw-, Flugzeug- und Seeverkehr ausgeweitet.UnternehmenshintergrundDas Unternehmen begann als regionales Lkw-Unternehmen und expandierte dann in andere Logistikmärkte.Da es seine Infrastruktur nicht aktualisiert hat, wurde die Verwaltung und Verfolgung von Aufträgen und Sendungen zu einem Engpass. Um die Abläufe zu verbessern, entwickelte Flowlogistic eine eigene Technologie zur Verfolgung von Sendungen in Echtzeit auf Paketebene. Das Unternehmen ist jedoch nicht in der Lage, diese Technologie einzusetzen, da sein auf Apache Kafka basierender Technologie-Stack das Verarbeitungsvolumen nicht unterstützen kann. Darüber hinaus möchte Flowlogistic seine Aufträge und Sendungen weiter analysieren, um festzustellen, wie die Ressourcen am besten eingesetzt werden können.LösungskonzeptFlowlogistic möchte zwei Konzepte mit Hilfe der Cloud umsetzen:* Verwendung der eigenen Technologie in einem Echtzeit-Bestandsverfolgungssystem, das den Standort der Ladungen anzeigt* Durchführung von Analysen aller Aufträge und Sendungsprotokolle, die sowohl strukturierte als auch unstrukturierte Daten enthalten, um festzustellen, wie die Ressourcen am besten eingesetzt werden können und welche Märkte erschlossen werden sollen. Sie wollen auch prädiktive Analysen nutzen, um früher zu erfahren, wann sich eine Sendung verzögert.Vorhandene technische UmgebungDie Architektur von Flowlogistic befindet sich in einem einzigen Rechenzentrum:* Datenbanken8 physische Server in 2 Clustern- SQL Server - Benutzerdaten, Inventar, statische Daten3 physische Server- Cassandra - Metadaten, Tracking-Nachrichten10 Kafka-Server - Aggregation von Tracking-Nachrichten und Batch-Insert* Anwendungsserver - Kunden-Frontend, Middleware für Bestellungen/Kunden60 virtuelle Maschinen auf 20 physischen Servern- Tomcat - Java-Dienste- Nginx - statische Inhalte- Batch-Server* Speichergeräte- iSCSI für Hosts virtueller Maschinen (VM)- Fibre Channel Storage Area Network (FC SAN) - SQL-Server-Speicher- Network-Attached Storage (NAS) Image-Speicher, Logs, Backups* 10 Apache Hadoop /Spark-Server- Core Data Lake- Datenanalyse-Workloads* 20 verschiedene Server- Jenkins, Überwachung, Bastion-Hosts,Geschäftsanforderungen* Aufbau einer zuverlässigen und reproduzierbaren Umgebung mit skaliertem Produktionsumfang.* Aggregieren von Daten in einem zentralisierten Data Lake für Analysen* Verwenden historischer Daten zur Durchführung prädiktiver Analysen für künftige Sendungen* Genaues Verfolgen jeder Sendung weltweit mithilfe proprietärer Technologie* Verbessern der geschäftlichen Agilität und der Innovationsgeschwindigkeit durch schnelle Bereitstellung neuer Ressourcen* Analysieren und Optimieren der Architektur für die Leistung in der Cloud* Vollständige Migration in die Cloud, wenn alle anderen Anforderungen erfüllt sindTechnische Anforderungen* Verarbeiten von Streaming- und Batch-Daten* Migrieren bestehender Hadoop-Arbeitslasten* Sicherstellen, dass die Architektur skalierbar und elastisch ist, um den sich ändernden Anforderungen des Unternehmens gerecht zu werden.* Verschlüsseln Sie die Daten während des Flugs und im Ruhezustand* Verbinden Sie ein VPN zwischen dem Produktionsrechenzentrum und der Cloud-Umgebung SEO Statement Wir sind so schnell gewachsen, dass unsere Unfähigkeit, unsere Infrastruktur zu aktualisieren, unser weiteres Wachstum und unsere Effizienz wirklich behindert. Wir müssen unsere Informationen so organisieren, dass wir leichter nachvollziehen können, wo sich unsere Kunden befinden und was sie versenden. Aussage des CTOIT war nie eine Priorität für uns, und so haben wir trotz des Wachstums unserer Daten nicht genug in unsere Technologie investiert. Ich habe gute IT-Mitarbeiter, aber sie sind so sehr mit der Verwaltung unserer Infrastruktur beschäftigt, dass ich sie nicht dazu bringen kann, sich um die wirklich wichtigen Dinge zu kümmern, z. B. die Organisation unserer Daten, die Erstellung von Analysen und die Implementierung der Tracking-Technologie des CFO.CFO StatementEin Teil unseres Wettbewerbsvorteils besteht darin, dass wir uns für verspätete Sendungen und Lieferungen bestrafen. Wenn wir jederzeit wissen, wo sich unsere Sendungen befinden, hat das eine direkte Auswirkung auf unser Endergebnis und unsere Rentabilität. Außerdem möchte ich kein Kapital für den Aufbau einer Serverumgebung binden.Flowlogistic führt sein Echtzeit-Bestandsverfolgungssystem ein. Die Tracking-Geräte werden alle Nachrichten zur Paketverfolgung senden, die nun an ein einziges Google Cloud Pub/Sub-Thema anstelle des Apache Kafka-Clusters gehen. Eine Abonnentenanwendung verarbeitet dann die Nachrichten für Echtzeitberichte und speichert sie in Google BigQuery für historische Analysen. Sie möchten sicherstellen, dass die Paketdaten im Laufe der Zeit analysiert werden können. Hängen Sie den Zeitstempel an jede Nachricht in der Cloud Pub/Sub-Abonnentenanwendung an, wenn sie empfangen wird. Fügen Sie den Zeitstempel und die Paket-ID an die ausgehende Nachricht von jedem Publisher-Gerät an, wenn diese an Cloud Pub/Sub gesendet wird. Verwenden Sie die Funktion NOW () in BigQuery, um die Zeit des Ereignisses zu erfassen. Verwenden Sie den automatisch generierten Zeitstempel von Cloud Pub/Sub, um die Daten zu ordnen. Q58. MJTelco FallstudieUnternehmensübersichtMJTelco ist ein Startup-Unternehmen, das plant, Netzwerke in schnell wachsenden, unterversorgten Märkten auf der ganzen Welt aufzubauen.Das Unternehmen besitzt Patente für innovative optische Kommunikationshardware. Auf der Grundlage dieser Patente kann das Unternehmen viele zuverlässige Hochgeschwindigkeits-Backbone-Verbindungen mit kostengünstiger Hardware aufbauen.UnternehmenshintergrundMJTelco wurde von erfahrenen Führungskräften aus der Telekommunikationsbranche gegründet und nutzt Technologien, die ursprünglich entwickelt wurden, um Kommunikationsprobleme im Weltraum zu lösen. Für den Betrieb des Unternehmens ist eine verteilte Dateninfrastruktur erforderlich, die Echtzeit-Analysen ermöglicht und maschinelles Lernen zur kontinuierlichen Optimierung der Topologien einbezieht. Da die Hardware kostengünstig ist, plant das Unternehmen eine Überdimensionierung des Netzwerks, um die Auswirkungen der dynamischen regionalen Politik auf die Verfügbarkeit der Standorte und die Kosten berücksichtigen zu können. Nach sorgfältigen Überlegungen entschied das Unternehmen, dass eine öffentliche Cloud die perfekte Umgebung für seine Anforderungen ist.LösungskonzeptMJTelco führt in seinen Labors ein erfolgreiches Proof-of-Concept-Projekt (PoC) durch. Das Unternehmen hat zwei Hauptbedürfnisse:* Skalierung und Härtung des PoC, um deutlich mehr Datenströme zu unterstützen, die bei einer Steigerung auf mehr als 50.000 Installationen generiert werden.* Verfeinerung der maschinellen Lernzyklen, um die dynamischen Modelle zu überprüfen und zu verbessern, die zur Steuerung der Topologiedefinition verwendet werden.MJTelco wird außerdem drei separate Betriebsumgebungen verwenden - Entwicklung/Test, Staging und Produktion -, um die Anforderungen bei der Durchführung von Experimenten, der Bereitstellung neuer Funktionen und der Betreuung von Produktionskunden zu erfüllen.Geschäftsanforderungen* Skalierung der Produktionsumgebung mit minimalen Kosten, Instanziierung von Ressourcen, wann und wo sie in einer unvorhersehbaren, verteilten Telekommunikationsbenutzergemeinschaft benötigt werden * Gewährleistung der Sicherheit ihrer geschützten Daten zum Schutz ihrer hochmodernen maschinellen Lern- und Analyseverfahren.* Technische Anforderungen* Gewährleistung eines sicheren und effizienten Transports und der Speicherung von Telemetriedaten* Schnelle Skalierung der Instanzen zur Unterstützung von 10.000 bis 100.000 Datenanbietern mit jeweils mehreren Datenströmen.* Ermöglicht die Analyse und Präsentation anhand von Datentabellen, die bis zu 2 Jahre Daten verfolgen und ca. 100 Mio. Datensätze pro Tag speichern* Unterstützt die schnelle Iteration der Überwachungsinfrastruktur mit dem Schwerpunkt auf der Erkennung von Datenpipeline-Problemen sowohl in Telemetrieflüssen als auch in Produktionslernzyklen.CEO StatementUnser Geschäftsmodell basiert auf unseren Patenten, Analysen und dynamischem maschinellen Lernen. Unsere preiswerte Hardware ist so organisiert, dass sie äußerst zuverlässig ist, was uns Kostenvorteile verschafft. Wir müssen unsere großen verteilten Datenpipelines schnell stabilisieren, um unsere Zuverlässigkeits- und Kapazitätsverpflichtungen zu erfüllen.CTO StatementUnsere öffentlichen Cloud-Dienste müssen wie angekündigt funktionieren. Wir brauchen Ressourcen, die skalierbar sind und die Sicherheit unserer Daten gewährleisten. Außerdem benötigen wir Umgebungen, in denen unsere Datenwissenschaftler unsere Modelle sorgfältig untersuchen und schnell anpassen können. Da wir uns bei der Verarbeitung unserer Daten auf die Automatisierung verlassen, müssen auch unsere Entwicklungs- und Testumgebungen während der Iteration funktionieren.Statement des CFODas Projekt ist zu groß, als dass wir die für die Daten und die Analyse erforderliche Hardware und Software warten könnten. Außerdem können wir es uns nicht leisten, ein Betriebsteam zu beschäftigen, um so viele Datenfeeds zu überwachen, also werden wir uns auf Automatisierung und Infrastruktur verlassen. Das maschinelle Lernen von Google Cloud wird es unseren quantitativen Forschern ermöglichen, an unseren hochwertigen Problemen zu arbeiten, anstatt an Problemen mit unseren Datenpipelines.Sie müssen Visualisierungen für Betriebsteams mit den folgenden Anforderungen zusammenstellen:* Der Bericht muss Telemetriedaten von allen 50.000 Installationen für die letzten 6 Wochen enthalten (Stichproben einmal pro Minute).* Der Bericht darf nicht mehr als 3 Stunden gegenüber den Live-Daten verzögert sein.* Der umsetzbare Bericht sollte nur suboptimale Links anzeigen.* Die meisten suboptimalen Links sollten nach oben sortiert werden.* Suboptimale Links können gruppiert und nach regionaler Geografie gefiltert werden.* Die Antwortzeit des Benutzers zum Laden des Berichts muss = JJJJ-MM-TT UND Datum <= JJJJ-MM-TT Legacy-SQL verwendet den Tabellen-Datumsbereich, während Standard-SQL table_sufix als Platzhalter verwendet.Q63. Welche der folgenden Aussagen über das Wide & Deep Learning Modell sind wahr? (Wählen Sie 2 Antworten.) Das breite Modell wird für das Memorieren verwendet, während das tiefe Modell für die Verallgemeinerung verwendet wird. Eine gute Anwendung für das breite und tiefe Modell ist ein Empfehlungssystem. Das breite Modell wird zur Verallgemeinerung verwendet, während das tiefe Modell zum Einprägen verwendet wird. Ein guter Anwendungsfall für das breite und tiefe Modell ist ein kleines lineares Regressionsproblem. Können wir Computern beibringen, wie Menschen zu lernen, indem wir die Fähigkeiten der Erinnerung und der Verallgemeinerung kombinieren? Diese Frage ist nicht leicht zu beantworten, aber durch das gemeinsame Training eines breiten linearen Modells (für die Erinnerung) und eines tiefen neuronalen Netzwerks (für die Verallgemeinerung) können wir die Stärken beider Modelle kombinieren und so einen Schritt weiter kommen. Bei Google nennen wir das "Wide & Deep Learning". Es ist nützlich für allgemeine, groß angelegte Regressions- und Klassifizierungsprobleme mit spärlichen Eingaben (kategorische Merkmale mit einer großen Anzahl möglicher Merkmalswerte), wie z. B. Empfehlungssysteme, Such- und Ranking-Probleme.Q64. Die _________ für Cloud Bigtable ermöglicht es, Cloud Bigtable in einer Cloud Dataflow-Pipeline zu verwenden. Cloud Dataflow-Konnektor DataFlow SDK BiqQuery-API BigQuery Datenübertragungsdienst ErläuterungDer Cloud Dataflow-Konnektor für Cloud Bigtable ermöglicht die Verwendung von Cloud Bigtable in einer Cloud Datafl