Diese Seite wurde exportiert von Free Exams Dumps Materials [ http://exams.dumpsmaterials.com ] Exportdatum:Thu Dec 5 2:10:27 2024 / +0000 GMT ___________________________________________________ Titel: Professional-Data-Engineer Dumps PDF 2023 Programm Ihre Vorbereitung EXAM SUCCESS [Q95-Q111] --------------------------------------------------- Professional-Data-Engineer Dumps PDF 2023 Programm Ihre Vorbereitung EXAM SUCCESS Erhalten Sie perfekte Ergebnisse mit Premium Professional-Data-Engineer Dumps Updated 270 Questions NEUE FRAGE 95Welche dieser Operationen können Sie über die BigQuery-Web-UI ausführen? Hochladen einer Datei im SQL-Format. Daten mit verschachtelten und wiederholten Feldern laden. Eine 20 MB große Datei hochladen. Mehrere Dateien mit einem Platzhalter hochladen. Sie können Daten mit verschachtelten und wiederholten Feldern über die Web-Benutzeroberfläche laden. Sie können die Web-Benutzeroberfläche nicht verwenden, um:- eine Datei mit einer Größe von mehr als 10 MB hochzuladen- mehrere Dateien gleichzeitig hochzuladen- eine Datei im SQL-Format hochzuladenAlle drei der oben genannten Vorgänge können mit dem Befehl "bq" ausgeführt werden.Referenz: https://cloud.google.com/bigquery/loading-dataNEW FRAGE 96Welche der folgenden Techniken sind Feature Engineering-Techniken? (Wählen Sie 2 Antworten) Versteckte Merkmalsebenen Feature-Priorisierung Gekreuzte Feature-Spalten Bucketization eines kontinuierlichen Features ErklärungDie Auswahl und Ausarbeitung des richtigen Satzes von Merkmalsspalten ist der Schlüssel zum Erlernen eines effektiven Modells.Bucketization ist ein Prozess, bei dem der gesamte Bereich eines kontinuierlichen Merkmals in eine Reihe von aufeinanderfolgenden Bins/Buckets unterteilt wird und dann das ursprüngliche numerische Merkmal in eine Bucket-ID (als kategoriales Merkmal) umgewandelt wird, je nachdem, in welchen Bucket der Wert fällt.Die Verwendung jeder Basismerkmalsspalte einzeln reicht möglicherweise nicht aus, um die Daten zu erklären. Um die Unterschiede zwischen verschiedenen Merkmalskombinationen herauszufinden, können wir dem Modell gekreuzte Merkmalsspalten hinzufügen.Referenz:https://www.tensorflow.org/tutorials/wide#selecting_and_engineering_features_for_the_modelNEW FRAGE 97Ihr Unternehmen lädt kommagetrennte Werte (CSV) in Google BigQuery. Die Daten werden vollständig und erfolgreich importiert, jedoch stimmen die importierten Daten nicht Byte für Byte mit der Quelldatei überein.Was ist die wahrscheinlichste Ursache für dieses Problem? Die in BigQuery geladenen CSV-Daten sind nicht als CSV gekennzeichnet. Die CSV-Daten enthalten ungültige Zeilen, die beim Import übersprungen wurden. Die in BigQuery geladenen CSV-Daten verwenden nicht die Standardkodierung von BigQuery. Die CSV-Daten haben vor dem Laden in BigQuery keine ETL-Phase durchlaufen. BigQuery versteht die UTF-8-Kodierung. Jede andere Kodierung führt zu Datenproblemen mit dem Schema.NEUE FRAGE 98Ihr Unternehmen führt seine erste dynamische Kampagne durch, bei der verschiedene Angebote durch die Analyse von Echtzeitdaten während der Weihnachtszeit angeboten werden. Die Datenwissenschaftler sammeln Terabytes an Daten, die während der 30-tägigen Kampagne jede Stunde rapide ansteigen. Sie verwenden Google Cloud Dataflow, um die Daten vorzuverarbeiten und die Merkmalsdaten (Signale) zu sammeln, die für das maschinelle Lernmodell in Google Cloud Bigtable benötigt werden. Das Team beobachtet eine suboptimale Leistung beim Lesen und Schreiben der anfänglichen Datenmenge von 10 TB. Sie möchten diese Leistung verbessern und gleichzeitig die Kosten minimieren. Was sollten sie tun? Definieren Sie das Schema neu, indem Sie Lese- und Schreibvorgänge gleichmäßig über den Zeilenbereich der Tabelle verteilen. Das Leistungsproblem sollte im Laufe der Zeit gelöst werden, wenn der Standort des BigDate-Clusters vergrößert wird. Gestalten Sie das Schema so um, dass ein einzelner Zeilenschlüssel verwendet wird, um Werte zu identifizieren, die im Cluster häufig aktualisiert werden müssen. Entwerfen Sie das Schema neu, um Zeilenschlüssel zu verwenden, die auf numerischen IDs basieren, die pro Benutzer, der die Angebote anzeigt, sequenziell ansteigen. NEUE FRAGE 99Ihre Organisation sammelt und analysiert seit 6 Monaten Daten in Google BigQuery. Der Großteil der analysierten Daten befindet sich in einer zeitlich partitionierten Tabelle namens events_partitioned. Um die Kosten für Abfragen zu reduzieren, hat Ihr Unternehmen eine Ansicht namens events erstellt, die nur die Daten der letzten 14 Tage abfragt. Der View ist in Legacy-SQL beschrieben. Nächsten Monat werden bestehende Anwendungen eine Verbindung zu BigQuery herstellen, um die Ereignisdaten über eine ODBC-Verbindung zu lesen. Sie müssen sicherstellen, dass die Anwendungen eine Verbindung herstellen können. Welche beiden Maßnahmen sollten Sie ergreifen? (Wählen Sie zwei.) Erstellen Sie eine neue Ansicht über Ereignisse mit Standard-SQL Erstellen Sie eine neue partitionierte Tabelle mit Hilfe einer Standard-SQL-Abfrage Erstellen Sie eine neue Ansicht über events_partitioned unter Verwendung von Standard-SQL Erstellen Sie ein Dienstkonto für die ODBC-Verbindung, das für die Authentifizierung verwendet wird. Erstellen Sie eine Google Cloud Identity and Access Management (Cloud IAM)-Rolle für die ODBC-Verbindung und freigegebene "events". NEUE FRAGE 100 Welches ist die empfohlene Zone für Ihre Compute Engine-Instanz und Cloud Bigtable-Instanz, um die bestmögliche Leistung zu erzielen? Die Compute Engine-Instanz sollte sich in der am weitesten von der Cloud Bigtable-Instanz entfernten Zone befinden. Sowohl die Compute-Engine-Instanz als auch die Cloud-Bigtable-Instanz sollten sich in verschiedenen Zonen befinden. Die Compute-Engine-Instanz und die Cloud-Bigtable-Instanz müssen sich in der gleichen Zone befinden. Die Cloud Bigtable-Instanz muss sich in der gleichen Zone befinden wie alle Verbraucher Ihrer Daten. Es wird empfohlen, Ihre Compute-Engine-Instanz in derselben Zone wie Ihre Cloud-Bigtable-Instanz zu erstellen, um die bestmögliche Leistung zu erzielen. Wenn es nicht möglich ist, eine Instanz in derselben Zone zu erstellen, sollten Sie Ihre Instanz in einer anderen Zone innerhalb derselben Region erstellen. Wenn sich Ihre Cloud Bigtable-Instanz zum Beispiel in us-central1-b befindet, können Sie Ihre Instanz in us-central1-f erstellen. Es wird empfohlen, die Erstellung Ihrer Compute Engine-Instanz in einer anderen Region als Ihre Cloud Bigtable-Instanz zu vermeiden, da dies zu einer zusätzlichen Latenz von Hunderten von Millisekunden bei jeder Cloud Bigtable-Anfrage führen kann.NEUE FRAGE 101Sie möchten Daten in Cloud Storage archivieren. Da einige Daten sehr sensibel sind, möchten Sie Ihre Daten nach dem "Trust No One"-Ansatz (TNO) verschlüsseln, um zu verhindern, dass die Mitarbeiter des Cloud-Anbieters Ihre Daten entschlüsseln. Was sollten Sie tun? Verwenden Sie gcloud kms keys creat, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel und einzigartigen zusätzlichen authentifizierten Daten (AAD) zu verschlüsseln. Verwenden Sie gsutil cp, um jede verschlüsselte Datei in den Cloud-Storage-Bucket hochzuladen, und bewahren Sie die AAD außerhalb von Google Cloud auf. Verwenden Sie gcloud kms keys create, um einen symmetrischen Schlüssel zu erstellen. Verwenden Sie dann gcloud kms encrypt, um jede Archivdatei mit dem Schlüssel zu verschlüsseln. Verwenden Sie gsutil cpto, um jede verschlüsselte Datei in den Cloud-Storage-Bucket hochzuladen, zerstören Sie den zuvor für die Verschlüsselung verwendeten Schlüssel manuell und rotieren Sie ihn einmal. Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der .botoconfiguration-Datei an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud Storage-Bucket hochzuladen. Speichern Sie den CSEK in Cloud Memorystore als permanente Speicherung des Geheimnisses. Geben Sie den vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK) in der Datei .botoconfiguration an. Verwenden Sie gsutil cpto, um jede Archivierungsdatei in den Cloud-Storage-Bucket hochzuladen. Speichern Sie den CSEK in einem anderen Projekt, auf das nur das Sicherheitsteam zugreifen kann. NEUE FRAGE 102Sie planen die Bereitstellung von Cloud SQL mit MySQL. Sie müssen eine hohe Verfügbarkeit im Falle eines Zonenausfalls sicherstellen. Was sollten Sie tun? Erstellen Sie eine Cloud SQL-Instanz in einer Zone und erstellen Sie ein Failover-Replikat in einer anderen Zone innerhalb derselben Region. Erstellen Sie eine Cloud SQL-Instanz in einer Zone und erstellen Sie ein Lese-Replikat in einer anderen Zone innerhalb derselben Region. Erstellen Sie eine Cloud SQL-Instanz in einer Zone und konfigurieren Sie ein externes Lese-Replikat in einer Zone in einer anderen Region. Erstellen Sie eine Cloud SQL-Instanz in einer Region und konfigurieren Sie eine automatische Sicherung in einem Cloud Storage-Bucket in derselben Region. https://cloud.google.com/sql/docs/mysql/high-availabilityNEW FRAGE 103Sie erstellen eine neue Pipeline in Google Cloud, um IoT-Daten von Cloud Pub/Sub über Cloud Dataflow zu BigQuery zu streamen. Bei der Vorschau der Daten stellen Sie fest, dass etwa 2% der Daten beschädigt zu sein scheinen. Sie müssen die Cloud Dataflow-Pipeline ändern, um diese beschädigten Daten herauszufiltern. Was sollten Sie tun? Fügen Sie einen SideInput hinzu, der einen booleschen Wert zurückgibt, wenn das Element beschädigt ist. Fügen Sie eine ParDo-Transformation in Cloud Dataflow hinzu, um beschädigte Elemente zu verwerfen. Fügen Sie eine Partitionstransformation in Cloud Dataflow hinzu, um gültige Daten von beschädigten Daten zu trennen. Fügen Sie eine GroupByKey-Transformation in Cloud Dataflow hinzu, um alle gültigen Daten zusammenzufassen und den Rest zu verwerfen. NEUE FRAGE 104Fallstudie 1 - FlowlogisticUnternehmensübersichtFlowlogistic ist ein führender Logistik- und Lieferkettenanbieter. Das Unternehmen unterstützt Unternehmen auf der ganzen Welt bei der Verwaltung ihrer Ressourcen und deren Transport zum endgültigen Bestimmungsort. Das Unternehmen ist schnell gewachsen und hat sein Angebot auf den Schienen-, Lkw-, Flugzeug- und Seeverkehr ausgeweitet.UnternehmenshintergrundDas Unternehmen begann als regionales Speditionsunternehmen und expandierte dann in andere Logistikmärkte.Da es seine Infrastruktur nicht auf den neuesten Stand gebracht hat, wurde die Verwaltung und Verfolgung von Aufträgen und Sendungen zu einem Engpass. Um die Abläufe zu verbessern, entwickelte Flowlogistic eine eigene Technologie zur Verfolgung von Sendungen in Echtzeit auf Paketebene. Das Unternehmen ist jedoch nicht in der Lage, diese Technologie einzusetzen, da sein auf Apache Kafka basierendes Technologiepaket das Verarbeitungsvolumen nicht bewältigen kann. Darüber hinaus möchte Flowlogistic seine Aufträge und Sendungen weiter analysieren, um festzustellen, wie die Ressourcen am besten eingesetzt werden können.LösungskonzeptFlowlogistic möchte zwei Konzepte mit Hilfe der Cloud umsetzen:* Verwendung der eigenen Technologie in einem Echtzeit-Bestandsverfolgungssystem, das den Standort der Ladungen anzeigt* Durchführung von Analysen aller Aufträge und Sendungsprotokolle, die sowohl strukturierte als auch unstrukturierte Daten enthalten, um festzustellen, wie die Ressourcen am besten eingesetzt werden können und welche Märkte erschlossen werden sollen. Sie wollen auch prädiktive Analysen nutzen, um früher zu erfahren, wann sich eine Sendung verzögert.Vorhandene technische UmgebungDie Architektur von Flowlogistic befindet sich in einem einzigen Rechenzentrum:* Datenbanken8 physische Server in 2 Clustern- SQL Server - Benutzerdaten, Inventar, statische Daten3 physische Server- Cassandra - Metadaten, Tracking-Nachrichten10 Kafka-Server - Aggregation von Tracking-Nachrichten und Batch-Insert* Anwendungsserver - Kunden-Frontend, Middleware für Bestellungen/Kunden60 virtuelle Maschinen auf 20 physischen Servern- Tomcat - Java-Dienste- Nginx - statische Inhalte- Batch-Server* Speichergeräte- iSCSI für Hosts virtueller Maschinen (VM)- Fibre Channel Storage Area Network (FC SAN) - SQL-Server-Speicher- Network-Attached Storage (NAS) Image-Speicher, Logs, Backups* 10 Apache Hadoop /Spark-Server- Core Data Lake- Datenanalyse-Workloads* 20 verschiedene Server- Jenkins, Überwachung, Bastion-Hosts,Geschäftsanforderungen* Aufbau einer zuverlässigen und reproduzierbaren Umgebung mit skaliertem Produktionsumfang.* Aggregieren von Daten in einem zentralisierten Data Lake für Analysen* Verwenden historischer Daten zur Durchführung prädiktiver Analysen für künftige Sendungen* Genaues Verfolgen jeder Sendung weltweit mithilfe proprietärer Technologie* Verbessern der geschäftlichen Agilität und der Innovationsgeschwindigkeit durch schnelle Bereitstellung neuer Ressourcen* Analysieren und Optimieren der Architektur für die Leistung in der Cloud* Vollständige Migration in die Cloud, wenn alle anderen Anforderungen erfüllt sindTechnische Anforderungen* Verarbeiten von Streaming- und Batch-Daten* Migrieren bestehender Hadoop-Arbeitslasten* Sicherstellen, dass die Architektur skalierbar und elastisch ist, um den sich ändernden Anforderungen des Unternehmens gerecht zu werden.* Verschlüsseln Sie die Daten während des Flugs und im Ruhezustand* Verbinden Sie ein VPN zwischen dem Produktionsrechenzentrum und der Cloud-Umgebung SEO Statement Wir sind so schnell gewachsen, dass unsere Unfähigkeit, unsere Infrastruktur zu aktualisieren, unser weiteres Wachstum und unsere Effizienz wirklich behindert. Wir müssen unsere Informationen so organisieren, dass wir leichter nachvollziehen können, wo sich unsere Kunden befinden und was sie versenden. Aussage des CTOIT war nie eine Priorität für uns. Ich habe gute IT-Mitarbeiter, aber sie sind so sehr mit der Verwaltung unserer Infrastruktur beschäftigt, dass ich sie nicht dazu bringen kann, sich um die wirklich wichtigen Dinge zu kümmern, z. B. die Organisation unserer Daten, die Erstellung von Analysen und die Implementierung der Tracking-Technologie des CFO.CFO StatementEin Teil unseres Wettbewerbsvorteils besteht darin, dass wir uns für verspätete Sendungen und Lieferungen bestrafen. Wenn wir jederzeit wissen, wo sich unsere Sendungen befinden, hat das eine direkte Auswirkung auf unser Endergebnis und unsere Rentabilität. Außerdem möchte ich kein Kapital für den Aufbau einer Serverumgebung binden.Der CEO von Flowlogistic möchte einen schnellen Einblick in seinen Kundenstamm gewinnen, damit sein Vertriebsteam im Außendienst besser informiert ist. Dieses Team ist technisch nicht sehr versiert und hat deshalb ein Visualisierungstool gekauft, um die Erstellung von BigQuery-Berichten zu vereinfachen. Allerdings sind sie mit den vielen Daten in der Tabelle überfordert und geben viel Geld für Abfragen aus, um die benötigten Daten zu finden. Sie möchten das Problem auf die kostengünstigste Weise lösen. Was sollten Sie tun? Exportieren Sie die Daten zur Virtualisierung in ein Google Sheet. Erstellen Sie eine zusätzliche Tabelle mit nur den erforderlichen Spalten. Erstellen Sie eine Ansicht auf die Tabelle, um sie dem Virtualisierungstool zu präsentieren. Erstellen Sie Identitäts- und Zugriffsmanagement (IAM)-Rollen für die entsprechenden Spalten, damit nur diese in einer Abfrage erscheinen. NEUE FRAGE 105Wenn Sie ein Modell für maschinelles Lernen erstellen möchten, das den Kurs einer bestimmten Aktie auf der Grundlage ihrer jüngsten Kursentwicklung vorhersagt, welche Art von Schätzer sollten Sie verwenden? Unüberwachtes Lernen Regressor Klassifikator Clustering-Schätzer Regression ist die überwachte Lernaufgabe zur Modellierung und Vorhersage von kontinuierlichen, numerischen Variablen. Beispiele sind die Vorhersage von Immobilienpreisen, Aktienkursen oder Testergebnissen von Schülern.Klassifizierung ist die überwachte Lernaufgabe zur Modellierung und Vorhersage kategorischer Variablen. Beispiele sind die Vorhersage von Mitarbeiterabwanderung, E-Mail-Spam, Finanzbetrug oder Schülernoten.Clustering ist eine Aufgabe des unüberwachten Lernens, bei der natürliche Gruppierungen von Beobachtungen (d. h. Cluster) auf der Grundlage der inhärenten Struktur Ihres Datensatzes gefunden werden. Beispiele hierfür sind die Kundensegmentierung, die Gruppierung ähnlicher Artikel im E-Commerce und die Analyse sozialer Netzwerke.Referenz: https://elitedatascience.com/machine-learning-algorithmsNEW FRAGE 106Sie entwerfen eine Pipeline, die Anwendungsereignisse in einem Pub/Sub-Thema veröffentlicht. Sie müssen Ereignisse über stündliche Intervalle aggregieren, bevor Sie die Ergebnisse zur Analyse in BigQuery laden. Ihre Lösung muss skalierbar sein, damit sie große Mengen von Ereignissen verarbeiten und in BigQuery laden kann. Was sollten Sie tun? Erstellen Sie einen Streaming-Dataflow-Auftrag, um kontinuierlich aus dem Pub/Sub-Thema zu lesen und die erforderlichen Aggregationen mithilfe von Tumbling Windows durchzuführen. Planen Sie einen Batch-Dataflow-Job für die stündliche Ausführung, der alle verfügbaren Nachrichten aus dem Pub-Sub-Thema abruft und die erforderlichen Aggregationen durchführt. Planen Sie eine Cloud-Funktion für die stündliche Ausführung, die alle verwertbaren Nachrichten aus dem Pub/Sub-Thema abruft und die erforderlichen Aggregationen durchführt. Erstellen Sie eine Cloud-Funktion, um die erforderliche Datenverarbeitung durchzuführen, die mit dem Pub/Sub-Trigger jedes Mal ausgeführt wird, wenn eine neue Nachricht in dem Thema veröffentlicht wird. NEUE FRAGE 107Welche sind zwei Methoden, die zum Denormalisieren von Tabellen in BigQuery verwendet werden können? 1) Aufteilung der Tabelle in mehrere Tabellen; 2) Verwendung einer partitionierten Tabelle 1) Tabellen zu einer Tabelle verbinden; 2) verschachtelte wiederholte Felder verwenden 1) Partitionierte Tabelle verwenden; 2) Tabellen zu einer Tabelle verbinden 1) verschachtelte wiederholte Felder verwenden; 2) eine partitionierte Tabelle verwenden Die herkömmliche Methode zur Denormalisierung von Daten besteht darin, ein Faktum mit all seinen Dimensionen in eine flache Tabellenstruktur zu schreiben. Die andere Methode zur Denormalisierung von Daten nutzt die native Unterstützung von BigQuery für verschachtelte und wiederholte Strukturen in JSON- oder Avro-Eingabedaten. Das Ausdrücken von Datensätzen mit verschachtelten und wiederholten Strukturen kann eine natürlichere Darstellung der zugrunde liegenden Daten liefern. Im Fall des Kundenauftrags würde der äußere Teil einer JSON-Struktur die Auftrags- und Kundeninformationen enthalten, und der innere Teil der Struktur würde die einzelnen Positionen des Auftrags enthalten, die als verschachtelte, wiederholte Elemente dargestellt würden.NEUE FRAGE 108Sie entwerfen einen Speicher für sehr große Textdateien für eine Datenpipeline auf Google Cloud. Sie möchten ANSI-SQL-Abfragen unterstützen. Außerdem möchten Sie die Komprimierung und das parallele Laden von den Eingabespeicherorten unter Verwendung der von Google empfohlenen Verfahren unterstützen. Was sollten Sie tun? Transformieren Sie Textdateien mit Cloud Dataflow in komprimierte Avro-Dateien. Verwenden Sie BigQuery für die Speicherung und Abfrage. Wandeln Sie Textdateien mithilfe von Cloud Dataflow in komprimiertes Avro um. Verwenden Sie Cloud Storage und BigQuery für permanent verknüpfte Tabellen zur Abfrage. Komprimieren von Textdateien in gzip unter Verwendung der Grid Computing Tools. Verwenden Sie BigQuery für die Speicherung und Abfrage. Komprimieren Sie Textdateien mit den Grid Computing Tools zu gzip. Verwenden Sie Cloud Storage und importieren Sie dann in Cloud Bigtable für Abfragen. Avro ist ein komprimiertes Format und Dataflow für parallele Pipelines und BigQuery für die Speicherung.NEUE FRAGE 109Verarbeitet Dataflow Batch-Daten-Pipelines oder Streaming-Daten-Pipelines? Nur Batch-Daten-Pipelines Sowohl Batch- als auch Streaming-Datenpipelines Nur Streaming Data Pipelines Keine der oben genannten Möglichkeiten ErläuterungDataflow ist ein einheitliches Verarbeitungsmodell und kann sowohl Streaming- als auch Batch-Datenpipelines ausführen Referenz: https://cloud.google.com/dataflow/NEW FRAGE 110Sie wählen Dienste zum Schreiben und Transformieren von JSON-Nachrichten von Cloud Pub/Sub zu BigQuery für eine Datenpipeline in der Google Cloud aus. Sie möchten die Servicekosten minimieren. Außerdem möchten Sie das Volumen der Eingabedaten, die in ihrer Größe variieren, mit minimalen manuellen Eingriffen überwachen und anpassen. Was sollten Sie tun? Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Überwachen Sie die CPU-Auslastung des Clusters. Ändern Sie die Anzahl der Worker Nodes in Ihrem Cluster über die Befehlszeile. Verwenden Sie Cloud Dataproc, um Ihre Transformationen auszuführen. Verwenden Sie