このページは Free Exams Dumps Materials [ http://exams.dumpsmaterials.com ] からエクスポートされました。 エクスポート日時:Wed Dec 4 19:02:36 2024 / +0000 GMT ___________________________________________________ タイトルGoogle Cloud認定資格試験問題集[Q41-Q64]のProfessional-Data-Engineer Dumpsで練習します。 --------------------------------------------------- Google Cloud Certified認定試験の問題と解答のProfessional-Data-Engineer Dumpsで練習する 100%返金保証付きProfessional-Data-Engineer試験問題集 GoogleのProfessional-Data-Engineer試験はデータ工学を専門とする専門家にGoogleが提供する認定資格です。Professional-Data-Engineer試験は、受験者のデータ処理システム、データモデリング、データガバナンス、およびデータ変換に関する理解をテストするように設計されています。Google Certified Professional Data Engineer 試験は、Google Cloud Platform のデータエンジニアリング技術に関する専門知識と、効果的なデータソリューションを設計・開発する能力を認定することを目的としています。 Q41.タイムスタンプ列とID列のWHERE句を使用してBigQueryテーブルをフィルタリングするクエリがあります。bq query - -dry_runを使用すると、タイムスタンプとIDのフィルタがデータ全体のごく一部を選択しているにもかかわらず、このクエリがテーブルのフルスキャンをトリガしていることがわかります。既存のSQLクエリに最小限の変更を加えるだけで、BigQueryがスキャンするデータ量を減らしたい。どうすればよいでしょうか? IDごとに別のテーブルを作成します。 LIMIT キーワードを使用して、返される行数を減らします。 パーティショニング列とクラスタリング列を持つテーブルを再作成します。 bq クエリ - -maximum_bytes_billed フラグを使用して、課金されるバイト数を制限します。 Q42.マーケティングチームから、BigQueryで更新する必要がある100万レコードのCSVを渡されました。BigQueryでUPDATE文を使用すると、quotaExceededエラーが発生します。どうすればよいでしょうか? 毎日の更新レコード数を減らして、BigQuery UPDATE DML文の制限内に収まるようにします。 Google Cloud Platform Console のクォータ管理セクションで、BigQuery UPDATE DML ステートメントの上限を増やします。 ソース CSV ファイルをクラウド ストレージでより小さな CSV ファイルに分割して、BigQuery ジョブごとの BigQuery UPDATE DML ステートメント数を減らします。 CSV ファイルから新しいレコードを新しい BigQuery テーブルにインポートします。新しいレコードを既存のレコードとマージし、結果を新しいBigQueryテーブルに書き込むBigQueryジョブを作成します。 https://cloud.google.com/blog/products/gcp/performing-large-scale-mutations-in-bigqueryQ43。Wide & Deep Learningモデルに関する次の記述のうち、正しいものはどれですか。(答えを2つ選んでください。) ワイドモデルは暗記に使われ、ディープモデルは汎化に使われる。 ワイドモデルとディープモデルの良い使い道は、推薦システムである。 ワイドモデルは汎化のために使われ、ディープモデルは記憶のために使われる。 ワイド・モデルとディープ・モデルの良い使い方は、小規模な線形回帰問題である。 解説記憶と汎化の力を組み合わせることで、人間のように学習するようにコンピュータに教えることはできるだろうか?答えを出すのは簡単なことではないが、ワイド・リニア・モデル(記憶用)とディープ・ニューラル・ネットワーク(汎化用)を共同でトレーニングすることで、両者の長所を組み合わせ、一歩近づくことができる。グーグルではこれを「ワイド&ディープ・ラーニング」と呼んでいる。推薦システム、検索、ランキング問題など、スパース入力(可能な特徴値の数が多いカテゴリ特徴)を持つ一般的な大規模回帰・分類問題に有効だ。参考:https://research.googleblog.com/2016/06/wide-deep-learning-better-together-with.htmlQ44。ETLジョブをBigQuery上で実行するように移行した後、移行したジョブの出力が元のジョブの出力と同じであることを確認する必要があります。元のジョブの出力を含むテーブルをロードし、その内容を移行後のジョブの出力と比較して、両者が同一であることを確認したいとします。テーブルには、比較のために結合できる主キー列がありません。 RAND() 関数を使用してテーブルから無作為のサンプルを選択し、サンプルを比較します。 HASH()関数を使用してテーブルから無作為のサンプルを選択し、サンプルを比較する。 Dataproc クラスタと BigQuery Hadoop コネクタを使用して、各テーブルからデータを読み取り、ソート後にテーブルの非タイムスタンプ列からハッシュを計算します。各テーブルのハッシュを比較する。 OVER() 関数を使用して層化ランダムサンプルを作成し、各テーブルから同等のサンプルを比較する。 このオプションによる完全な比較、残りはすべてのデータが問題ないことを保証しないサンプルでの比較です。クラウドBigtableのパフォーマンスが低い理由として、妥当でないものはどれですか? ワークロードがCloud Bigtableに適していない。 テーブルのスキーマが正しく設計されていない。 Cloud Bigtableクラスタのノード数が多すぎる。 ネットワーク接続に問題があります。 説明Cloud Bigtableクラスタのノード数が不足しています。Cloud Bigtableクラスタが過負荷の場合、ノードを追加するとパフォーマンスが向上します。監視ツールを使用して、クラスタが過負荷かどうかを確認してください。参考:https://cloud.google.com/bigtable/docs/performanceQ46.クラウドストレージにデータをアーカイブしたい。一部のデータは非常に機密性が高いため、「Trust No One」(TNO)アプローチを使ってデータを暗号化し、クラウド・プロバイダーのスタッフがデータを解読できないようにしたい。どうすればいいでしょうか? gcloud kms keys creatを使って共通鍵を作成します。次にgcloud kms encryptを使用して、各アーカイブファイルをキーと一意の追加認証データ(AAD)で暗号化します。gsutil cp を使用して、暗号化された各ファイルを Cloud Storage バケットにアップロードし、AAD を Google Cloud の外部に保管します。 gcloud kms keys createを使って共通鍵を作成します。その後、gcloud kms encryptを使用して、そのキーで各アーカイブファイルを暗号化する。gsutil cptoを使用して、暗号化された各ファイルをCloud Storageバケットにアップロードします。以前暗号化に使用したキーを手動で破棄し、キーを一度ローテーションします。 .botoconfigurationファイルに顧客提供の暗号化キー(CSEK)を指定する。gsutil cptoを使用して、各アーカイブファイルをCloud Storageバケットにアップロードする。CSEKをCloud Memorystoreにシークレットの永久保存として保存する。 .botoconfigurationファイルに顧客提供暗号鍵(CSEK)を指定する。gsutil cptoを使用して、各アーカイブファイルをCloud Storageバケットにアップロードします。セキュリティチームだけがアクセスできる別のプロジェクトにCSEKを保存する。 Q47.あなたは、出荷ラベルを読み取るためにハンドヘルドスキャナを使用する運送会社に勤めています。あなたの会社には厳格なデータプライバシー基準があり、スキャナは受取人の個人を特定できる情報(PII)のみを分析システムに送信する必要がありますが、これはユーザーのプライバシー規則に違反します。クラウドネイティブのマネージドサービスを使用してスケーラブルなソリューションを迅速に構築し、分析システムへのPIIの流出を防ぎたいと考えています。 BigQueryで認可されたビューを作成し、機密データを含むテーブルへのアクセスを制限します。 サードパーティのデータ検証ツールをCompute Engineの仮想マシンにインストールして、受信データに機密情報が含まれていないかチェックする。 Stackdriverロギングを使用して、トータルパイプラインを通過したデータを分析し、機密情報が含まれている可能性のあるトランザクションを特定します。 トピックを読み取り、クラウドデータ損失防止APIへの呼び出しを行うクラウドファンクションを構築します。タグ付けと信頼レベルを使用して、レビューのためにデータをバケットに渡すか隔離します。 Q48.あなたの天気予報アプリは、15分ごとにデータベースに照会して現在の気温を取得します。フロントエンドは Google App Engine を使用しており、数百万人のユーザーにサーバーを提供しています。データベースの障害に対応するために、フロントエンドをどのように設計する必要がありますか? データベースサーバーを再起動するコマンドを発行する。 指数関数的バックオフでクエリを再試行する。 データの陳腐化を最小限に抑えるため、オンラインに戻るまで1秒ごとにクエリを再試行する。 データベースがオンラインに戻るまで、クエリの頻度を1時間に1回に減らします。 説明/参照:Q49.あなたの会社の顧客データベースと注文データベースは、しばしば高負荷状態にあります。そのため、業務に支障をきたすことなく分析を実行することが困難になっています。データベースはMySQLクラスタにあり、毎晩mysqldumpを使用してバックアップが取られています。業務への影響を最小限に抑えながら分析を実行したい。 MySQLクラスタにノードを追加し、そこにOLAPキューブを構築します。 ETLツールを使用して、MySQLからGoogle BigQueryにデータをロードする。 オンプレミスのApache HadoopクラスタをMySQLに接続し、ETLを実行する。 バックアップをGoogle Cloud SQLにマウントし、Google Cloud Dataprocを使用してデータを処理する。 Q50.クラウドストレージに過去のデータを保存しています。その履歴データを分析する必要があります。無効なデータエントリを検出し、プログラミングやSQLの知識を必要としないデータ変換を実行するソリューションを使用したい。 BeamとCloud Dataflowを使用してエラーを検出し、変換を実行する。 Cloud Dataprepとレシピを使用してエラーを検出し、変換を実行する。 HadoopジョブでCloud Dataprocを使ってエラーを検出し、変換を実行する。 BigQueryのフェデレート・テーブルをクエリとともに使用して、エラーを検出し、変換を実行する。 Q51.データフロー・パイプラインについて正しくないものはどれですか? パイプラインは一連の処理です。 パイプラインはデータ処理ジョブを表す パイプラインはステップの有向グラフを表す パイプラインはインスタンス間でデータを共有できる パイプライン内のデータと変換は、そのパイプラインに固有であり、そのパイプラインが所有します。プログラムは複数のパイプラインを作成できますが、パイプラインはデータや変換を共有できませんQ52。あなたは、機械学習ベースの食品注文サービスのデータベーススキーマを設計しています。以下は、保存する必要がある情報の一部です:ユーザーのプロフィール:ユーザーが好きなもの、嫌いなものユーザーのアカウント情報:名前、住所、好みの食事時間帯注文情報:注文情報:いつ、どこから、誰に注文が行われたかデータベースは、製品のすべてのトランザクションデータを格納するために使用されます。データスキーマを最適化したい。どのGoogle Cloud Platform製品を使うべきか? BigQuery クラウドSQL クラウドBigtable クラウドデータストア Q53.クラウドBigtableは、非常に大量の______________________________データを格納するための推奨オプションですか? レイテンシが非常に高いマルチキーデータ 低レイテンシのマルチキーデータ シングルキーデータでレイテンシが非常に小さい レイテンシが非常に高いシングルキーデータ 説明クラウド・ビッグテーブルは、数十億行、数千列まで拡張可能な疎なテーブルであり、テラバイトからペタバイトのデータを格納することができます。この値は行キーとして知られています。Cloud Bigtableは、非常に大量のシングルキーデータを非常に低いレイテンシで格納するのに理想的です。低レイテンシで高い読み取りおよび書き込みスループットをサポートし、MapReduce処理に理想的なデータソースです。参考:https://cloud.google.com/bigtable/docs/overviewQ54。レガシーSQLと標準SQLに関する次の記述のうち、正しくないものはどれですか? 標準SQLはBigQueryで推奨されるクエリ言語です。 レガシーSQLでクエリを記述した場合、それを標準SQLで実行しようとするとエラーが発生する可能性があります。 2つのクエリ言語の違いの1つは、完全修飾テーブル名(関連するプロジェクト名を含むテーブル名)の指定方法です。 データセットごとにクエリ言語を設定する必要がありますが、デフォルトはStandard SQLです。 データセットごとにクエリー言語を設定する必要はありません。標準SQLは、BigQuery 2.0がリリースされて以来、推奨されているクエリ言語です。レガシーSQLでは、プロジェクト修飾名を持つテーブルにクエリを実行する場合、コロン(:)を区切り文字として使用します。標準SQLでは、代わりにピリオド「.」を使用します。2つのクエリ言語間の構文の違い(プロジェクト修飾テーブル名など)により、レガシーSQLでクエリを記述した場合、標準SQLで実行しようとするとエラーが発生する可能性があります。参考:https://cloud.google.com/bigquery/docs/reference/standard-sql/migrating-from-legacy-sqlQ55。Google Cloud上のデータパイプライン用に、Cloud Pub/SubからBigQueryへのJSONメッセージの書き込みと変換を行うサービスを選択しています。サービスコストを最小限に抑えたい。また、最小限の手動介入で、サイズが変化する入力データ量を監視し、対応したいと考えています。どうすればいいでしょうか? Cloud Dataprocを使用して変換を実行します。クラスターのCPU使用率を監視する。コマンドラインでクラスタのワーカーノード数を変更します。 Cloud Dataprocを使用して変換を実行します。diagnosecommandを使用してオペレーションの出力アーカイブを生成します。ボトルネックを特定し、クラスターリソースを調整します。 Cloud Dataflowを使用して変換を実行します。Stackdriverを使用してジョブシステムの遅延を監視します。ワーカーインスタンスにデフォルトのオートスケーリング設定を使用する。 Cloud Dataflowを使用して変換を実行します。ジョブのサンプリングの総実行時間を監視します。必要に応じて、デフォルト以外のCompute Engineのマシンタイプを使用するようにジョブを構成します。 説明Q56。あなたは服を推薦するモデルを構築しています。ユーザーのファッションは時間の経過とともに変化する可能性が高いことがわかっているため、新しいデータが利用可能になると、モデルに新しいデータをストリーミングするデータパイプラインを構築します。モデルを訓練するために、このデータをどのように使うべきか? 新しいデータだけでモデルを継続的に再トレーニングする。 既存のデータと新しいデータを組み合わせてモデルを継続的に再トレーニングする。 新しいデータをテストセットとして使用しながら、既存のデータで訓練する。 既存のデータをテストセットとして使用しながら、新しいデータで訓練を行う。 Q57.ケーススタディ1 - Flowlogistic会社概要Flowlogisticは物流とサプライチェーンの大手プロバイダーです。同社は世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援している。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送などのサービスを提供している。企業の背景同社は地域トラック運送会社としてスタートし、その後、他の物流市場にも進出した。インフラを更新してこなかったため、注文や出荷の管理と追跡がボトルネックとなっていた。業務を改善するため、Flowlogisticは小包レベルでリアルタイムに貨物を追跡する独自の技術を開発した。しかし、Apache Kafkaをベースとする同社の技術スタックでは処理量に対応できないため、導入できずにいる。ソリューションのコンセプトFlowlogistic社は、クラウドを利用して次の2つのコンセプトを実現したいと考えている。* 自社独自のテクノロジーを、荷物の所在を示すリアルタイムの在庫追跡システムに利用する。* 構造化データと非構造化データの両方を含むすべての注文と出荷のログを分析し、リソースの最適な配置方法と、情報を拡大する市場を決定する。また、予測分析を利用して、貨物がいつ遅れるかをより早く知ることも望んでいる。既存の技術環境Flowlogisticのアーキテクチャは、単一のデータセンターに存在する:* SQLサーバー - ユーザーデータ、在庫、静的データ3物理サーバー - Cassandra - メタデータ、トラッキングメッセージ10 Kafkaサーバー - トラッキングメッセージの集約とバッチインサート* アプリケーションサーバー - 顧客フロントエンド、Tomcat - Javaサービス - Nginx - 静的コンテンツ - バッチサーバー* ストレージアプライアンス - 仮想マシン(VM)ホスト用iSCSI - ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ - ネットワーク接続ストレージ(NAS)イメージストレージ、Apache Hadoop /Spark サーバー10台 - データレイクの中核 - データ分析ワークロード* 雑多なサーバー20台 - Jenkins、モニタリング、Bastionホスト,ビジネス要件* 本番環境をスケールアップした信頼性と再現性の高い環境を構築。* 分析用に一元化されたデータレイクにデータを集約* 過去のデータを使用して将来の出荷に関する予測分析を実行* 独自のテクノロジーを使用して世界中のすべての出荷を正確に追跡* 新しいリソースの迅速なプロビジョニングにより、ビジネスの俊敏性とイノベーションのスピードを向上* クラウドでのパフォーマンスのためにアーキテクチャを分析し最適化* その他の要件がすべて満たされた場合、クラウドに完全に移行技術要件* ストリーミングデータとバッチデータの両方を処理* 既存のHadoopワークロードを移行* 変化する企業の需要に対応するために、アーキテクチャがスケーラブルで弾力的であることを確認。* 本番データセンターとクラウド環境の間にVPNを接続する SEOステートメント 当社は急速に成長したため、インフラをアップグレードできないことが、さらなる成長と効率化を妨げています。顧客はどこにいて、何を出荷しているのかをもっと簡単に把握できるよう、情報を整理する必要があります。CTOの発言ITはこれまで当社にとって優先事項ではありませんでしたので、データが増大するにつれ、テクノロジーへの投資が不十分になってきました。ITを管理する優秀なスタッフはいますが、彼らはインフラの管理に忙しく、データの整理や分析の構築、CFOの追跡技術の導入方法の検討など、本当に重要なことに手が回らないのです。出荷の状況を常に把握することは、当社の収益と利益に直結します。Flowlogisticはリアルタイム在庫追跡システムを展開しています。追跡装置はすべてパッケージ追跡メッセージを送信し、Apache Kafkaクラスタの代わりに単一のGoogle Cloud Pub/Subトピックに送信されます。サブスクライバ・アプリケーションは、リアルタイム・レポート用にメッセージを処理し、履歴分析用にGoogle BigQueryに保存する。パッケージデータを長期間にわたって分析できるようにしたい場合、どのアプローチを取るべきですか? Cloud Pub/Subサブスクライバ・アプリケーションで、受信した各メッセージにタイムスタンプを付けます。 各パブリッシャ・デバイスからClod Pub/Subに送信されるアウトバウンド・メッセージにタイムスタンプとパッケージIDを添付する。 BigQueryのNOW()関数を使用して、イベントの時刻を記録します。 Cloud Pub/Subから自動生成されたタイムスタンプを使用して、データを順序付けます。 Q58.MJTelcoケーススタディ会社概要MJTelcoは、世界中の急成長している未開拓市場にネットワークを構築することを計画している新興企業です。同社は、革新的な光通信ハードウェアの特許を持っています。同社は革新的な光通信ハードウェアの特許を持っている。これらの特許に基づき、安価なハードウェアで多くの信頼性の高い高速バックボーンリンクを構築することができる。企業背景MJTelcoは、経験豊富な通信会社の幹部によって設立され、元々は宇宙での通信の課題を克服するために開発された技術を使用している。MJTelcoの事業運営の基本は、トポロジーを継続的に最適化するために、リアルタイム分析を推進し、機械学習を組み込んだ分散データ・インフラを構築することである。ハードウェアは安価であるため、ネットワークをオーバーデプロイすることで、ロケーションの可用性とコストに対するダイナミックな地域政治の影響を考慮することを計画している。同社の経営陣とオペレーション・チームは世界中に配置されており、システム内でデータ消費者と提供者の間に多対多の関係が構築されている。ソリューションのコンセプトMJTelcoはラボで概念実証(PoC)プロジェクトを成功させている。MJTelcoはまた、開発/テスト、ステージング、本番の3つの個別の運用環境を使用して、実験の実行、新機能のデプロイ、本番顧客へのサービスのニーズに対応する。ビジネス要件* 予測不可能な分散型通信ユーザーコミュニティにおいて、必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで本番環境をスケールアップする。* 顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持する。 技術要件*遠隔測定データの安全で効率的な転送と保存を保証する。* 1日あたり約1億レコードを保存し、最大2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にする。*遠隔測定フローと本番の学習サイクルの両方でデータパイプラインの問題を認識することに焦点を当てた監視インフラの迅速な反復をサポートする。当社の安価なハードウェアは信頼性が高く、コスト面で有利です。CTOのステートメント当社のパブリック・クラウド・サービスは、広告どおりに動作しなければなりません。拡張性があり、データの安全性を維持できるリソースが必要です。また、データサイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。CFO(最高財務責任者)のコメントプロジェクトが大きすぎて、データと分析に必要なハードウェアとソフトウェアを維持することができません。また、多くのデータフィードを監視するための運用チームの人員を確保する余裕もないため、自動化とインフラに頼ることになります。Google Cloudの機械学習により、定量的研究者はデータパイプラインの問題ではなく、価値の高い問題に取り組むことができます。オペレーションチーム向けに、以下の要件を満たすビジュアライゼーションを作成する必要があります。レポートには、直近6週間分の全50,000施設の遠隔測定データが含まれていなければならない(サンプリングは毎分1回) * レポートは、ライブデータから3時間以上遅れてはならない * 実行可能なレポートには、最適でないリンクのみが表示されなければならない * 最も最適でないリンクは、上位にソートされなければならない * 最適でないリンクは、地域ごとにグループ化およびフィルタリングできる * レポートをロードするためのユーザー応答時間は、5秒未満でなければならない。 Google Sheetsにデータをロードし、数式を使用してメトリックを計算し、フィルタ/ソートを使用して最適でないリンクのみを表に表示する。 データをGoogle BigQueryのテーブルにロードし、データをクエリするGoogle Appsスクリプトを記述し、メトリックを計算し、Google Sheetsのテーブル内の最適でない行のみを表示する。 データを Google Cloud Datastore のテーブルにロードし、Google App Engine アプリケーションを記述して、すべての行にクエリを実行し、メトリックを導出する関数を適用し、Google チャートとビジュアライゼーション API を使用して結果を表にレンダリングする。 データをGoogle BigQueryテーブルにロードし、データに接続してメトリックを計算し、フィルタ式を使用して最適でない行のみを表に表示するGoogle Data Studio 360レポートを作成します。 Q59.Compute Engine仮想マシン(n2-standard -32)上のTensorFlow機械学習モデルは、フレーミングを完了するのに2日かかります。モデルには、CPU上で部分的に実行する必要があるカスタムTensorFl