プロフェッショナル-データ-エンジニアのダンプスPDF 2023プログラムあなたの準備EXAMの成功[Q95-Q111]

新しい質問 95
BigQuery Web UIから実行できる操作はどれですか？

SQL形式のファイルをアップロードします。

ネストされ、繰り返されるフィールドを持つデータをロードする。

20MBのファイルをアップロードしてください。

ワイルドカードを使用して複数のファイルをアップロードします。

新しい質問 96
フィーチャーエンジニアリングの技法はどれですか？(答えを2つ選びなさい)

隠れた特徴レイヤー

機能の優先順位付け

交差する特徴的な柱

連続特徴のバケツ化

新しい質問 97
貴社では、カンマ区切り値（CSV）ファイルをGoogle BigQueryに読み込んでいます。データは完全に正常にインポートされますが、インポートされたデータはソースファイルとバイト単位で一致しません。
この問題の最もありそうな原因は何ですか？

BigQueryに読み込まれたCSVデータにCSVフラグが付かない。

CSVデータに無効な行があり、インポート時にスキップされました。

BigQueryに読み込まれたCSVデータが、BigQueryのデフォルトのエンコーディングを使用していません。

CSVデータはBigQueryにロードする前にETLフェーズを経ていない。

新しい質問 98
御社は、ホリデーシーズンにリアルタイムのデータを分析し、さまざまなオファーを提供する初のダイナミックキャンペーンを実施している。データサイエンティストは、30日間のキャンペーン中、毎時間急速に増加するテラバイトのデータを収集しています。Google Cloud Dataflowを使用してデータを前処理し、Google Cloud Bigtableで機械学習モデルに必要な特徴（シグナル）データを収集しています。チームは、10TBのデータの初期負荷の読み取りと書き込みで、最適とは言えないパフォーマンスを観察している。
a.コストを最小限に抑えながら、このパフォーマンスを向上させたいと考えている。彼らは何をすべきでしょうか？

スキーマを再定義し、読み取りと書き込みをテーブルの行スペースに均等に分散させる。

パフォーマンスの問題は、BigDateクラスタのサイトが増えるにつれて解決されるはずです。

スキーマを再設計し、クラスタ内で頻繁に更新が必要な値を識別するために単一の行キーを使用する。

スキーマを再設計し、オファーを閲覧するユーザーごとに順次増加する数値IDに基づく行キーを使用するようにします。

新しい質問99
あなたの組織はGoogle BigQueryで6ヶ月間データを収集し、分析しています。分析されたデータの大部分は、events_partitionedという名前の時間分割されたテーブルに置かれています。クエリのコストを削減するために、直近14日間のデータのみをクエリするeventsというビューを作成しました。このビューはレガシーSQLで記述されています。来月、既存のアプリケーションがBigQueryに接続し、ODBC接続を介してイベントデータを読み込む予定です。アプリケーションが接続できるようにする必要があります。どの2つのアクションを取るべきですか？(2つ選んでください）。

標準SQLを使用して、イベントに関する新しいビューを作成する

標準SQLクエリーを使用して、パーティショニングされたテーブルを新規作成する。

標準SQLを使用して、events_partitionedに対する新しいビューを作成する。

認証に使用するODBC接続用のサービスアカウントを作成する。

ODBC接続と共有 "event "用にGoogle Cloud Identity and Access Management (Cloud IAM)ロールを作成する。

新しい質問 100
最高のパフォーマンスを得るために、Compute EngineインスタンスとCloud Bigtableインスタンスの推奨ゾーンは？

Cloud Bigtableインスタンスから最も遠いゾーンにCompute Engineインスタンスを配置します。

Compute EngineインスタンスとCloud Bigtableインスタンスの両方を異なるゾーンに配置します。

Compute EngineインスタンスとCloud Bigtableインスタンスの両方を同じゾーンに配置します。

Cloud Bigtableインスタンスは、データのすべての消費者と同じゾーンにあるようにします。

新しい質問101
クラウドストレージにデータをアーカイブしたい。一部のデータは非常に機密性が高いため、「Trust No One」（TNO）アプローチを使ってデータを暗号化し、クラウドプロバイダーのスタッフがデータを解読できないようにしたい。どうすればよいでしょうか？

gcloud kms keys creatを使用して対称キーを作成します。次にgcloud kms encryptを使って、各アーカイブファイルをキーと一意の追加認証データ（AAD）で暗号化する。gsutil cp を使用して、暗号化された各ファイルを Cloud Storage バケットにアップロードし、AAD を Google Cloud の外部に保管します。

gcloud kms keys createを使って共通鍵を作成します。次にgcloud kms encryptを使って各アーカイブファイルを暗号化する。gsutil cptoを使って、暗号化された各ファイルをCloud Storageバケットにアップロードします。
以前暗号化に使用したキーを手動で破棄し、キーを一度ローテーションする。

.botoconfigurationファイルに顧客提供の暗号化キー(CSEK)を指定する。gsutil cptoを使って、各アーカイブファイルをCloud Storageバケットにアップロードする。CSEKをCloud Memorystoreにシークレットの永久保存として保存する。

.botoconfigurationファイルに顧客提供の暗号化キー(CSEK)を指定する。gsutil cpto を使用して、各アーカイブファイルを Cloud Storage バケットにアップロードします。セキュリティチームだけがアクセスできる別のプロジェクトにCSEKを保存する。

新しい質問 102
MySQLを使ってCloud SQLを導入する予定です。ゾーン障害発生時の高可用性を確保する必要があります。あなたは何をすべきでしょうか？

あるゾーンにCloud SQLインスタンスを作成し、同じリージョン内の別のゾーンにフェイルオーバー・レプリカを作成する。

あるゾーンにCloud SQLインスタンスを作成し、同じリージョン内の別のゾーンにリード・レプリカを作成する。

あるゾーンにCloud SQLインスタンスを作成し、異なるリージョンのゾーンに外部リード・レプリカを構成する。

リージョンにCloud SQLインスタンスを作成し、同じリージョンにあるCloud Storageバケットへの自動バックアップを構成する。

新しい質問 103
Google Cloudで新しいパイプラインを作成し、Cloud Pub/SubからCloud Dataflowを経由してBigQueryにIoTデータをストリーミングしようとしています。データをプレビューしていると、約2%のデータが破損していることに気づきます。Cloud Dataflowパイプラインを修正して、この破損データをフィルタリングする必要があります。どうすればいいでしょうか？

要素が破損している場合にブール値を返すSideInputを追加します。

Cloud DataflowにParDo変換を追加して、破損した要素を破棄する。

クラウドデータフローにパーティション変換を追加して、有効なデータと破損したデータを分離する。

Cloud DataflowにGroupByKey変換を追加して、有効なデータをすべてグループ化し、残りを破棄する。

新しい質問 104
ケーススタディ1 - Flowlogistic
会社概要
Flowlogisticはロジスティクスとサプライチェーンの大手プロバイダーである。同社は世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援している。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送などのサービスを提供している。
会社の背景
同社は地域トラック運送会社としてスタートし、その後、他の物流市場に進出した。
インフラを更新してこなかったため、注文と出荷の管理と追跡がボトルネックになっていた。業務を改善するため、Flowlogisticは小包レベルでリアルタイムに出荷を追跡する独自のテクノロジーを開発した。しかし、Apache Kafkaをベースとする同社の技術スタックでは処理量に対応できないため、導入できずにいる。さらにFlowlogistic社は、注文と出荷をさらに分析し、リソースの最適な配置方法を決定したいと考えている。
ソリューション・コンセプト
Flowlogisticはクラウドを使って2つのコンセプトを実現したいと考えている：
* 積荷の所在を示すリアルタイム在庫追跡システムで、同社独自の技術を使用する。
* 構造化データと非構造化データの両方が含まれる、すべての注文と出荷のログを分析し、リソースをどのように配置するのが最適か、どの市場で情報を拡大するかを決定する。また、予測分析を利用して、出荷がいつ遅れるかをより早く知ることも望んでいる。
既存の技術環境
Flowlogisticのアーキテクチャは、単一のデータセンターに存在する：
* データベース
8台の物理サーバ、2クラスタ
- SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー3台
- Cassandra - メタデータ、トラッキングメッセージ
10 Kafkaサーバー - メッセージ集約とバッチ挿入を追跡
* アプリケーション・サーバー - 顧客フロント・エンド、注文/通関用ミドルウェア
20台の物理サーバーに60台の仮想マシン
- Tomcat - Javaサービス
- Nginx - 静的コンテンツ
- バッチサーバー
* ストレージ機器
- 仮想マシン(VM)ホスト用iSCSI
- ファイバー・チャネル・ストレージ・エリア・ネットワーク（FC SAN） - SQLサーバー・ストレージ
- ネットワーク接続ストレージ（NAS）イメージストレージ、ログ、バックアップ
* 10 Apache Hadoop /Spark サーバー
- コアデータレイク
- データ分析ワークロード
* 雑多なサーバー20台
- ジェンキンス、モニタリング、バスティオンホスト、
ビジネス要件
* 信頼性が高く、再現可能な環境を構築する。
* 分析用に一元化されたデータレイクにデータを集約
* 過去のデータを使用して、将来の出荷に関する予測分析を実行する。
* 独自の技術で世界中の出荷を正確に追跡
* 新規リソースの迅速なプロビジョニングによるビジネスの俊敏性とイノベーションのスピードの向上
* クラウドにおけるパフォーマンスのためのアーキテクチャの分析と最適化
* 他のすべての要件が満たされれば、クラウドに完全に移行する。
技術要件
* ストリーミングデータとバッチデータの両方を扱う
* 既存のHadoopワークロードの移行
* 変化する会社の需要に対応するため、アーキテクチャの拡張性と伸縮性を確保する。
* 可能な限りマネージド・サービスを利用する
* 飛行中および停止中のデータの暗号化
* 本番データセンターとクラウド環境の間にVPNを接続する SEO Statement 私たちは急速に成長したため、インフラをアップグレードできないことが、さらなる成長と効率化を妨げています。世界中に貨物を移動させるのは効率的ですが、データを移動させるのは非効率です。
顧客がどこにいて、何を出荷しているのかをより簡単に理解できるよう、情報を整理する必要がある。
CTO声明
私たちにとってITは決して優先事項ではなかったので、データが増大するにつれ、テクノロジーへの投資も十分ではなくなってきた。ITを管理する優秀なスタッフはいるのですが、彼らはインフラの管理に忙しく、データの整理や分析の構築、CFOのトラッキング・テクノロジーの導入方法の検討など、本当に重要なことに手が回らないのです。
CFOステートメント
当社の競争優位性のひとつは、出荷や納品が遅れた場合にペナルティを課すことです。常に出荷状況を把握することは、当社の収益と利益に直結します。さらに、サーバー環境を構築するために資本を投下したくありません。
FlowlogisticのCEOは、営業チームが現場でより良い情報を得られるように、顧客ベースに関する迅速な洞察を得たいと考えています。このチームはあまり技術的でないため、BigQueryレポートの作成を簡素化する可視化ツールを購入しました。しかし、テーブル内のすべてのデータに圧倒され、必要なデータを見つけるためのクエリに多くのコストを費やしています。最も費用対効果の高い方法で問題を解決したい。どうすればいいでしょうか？

データをGoogleシートにエクスポートして仮想化する。

必要なカラムだけを持つ追加のテーブルを作成する。

仮想化ツールに表示するテーブルのビューを作成する。

適切なカラムに ID およびアクセス管理 (IAM) ロールを作成し、クエリにそのロールのみが表示されるようにする。

新しい質問 105
最近の株価履歴から特定の銘柄の株価を予測する機械学習モデルを作成したい場合、どのような推定量を使用すべきでしょうか？

教師なし学習

レグレッサー

クラシファイア

クラスタリング推定量

新しい質問 106
アプリケーションイベントをPub/Subトピックにパブリッシュするパイプラインを設計しています。分析用に結果をBigQueryにロードする前に、1時間間隔でイベントを集約する必要があります。大量のイベントを処理してBigQueryにロードできるように、ソリューションはスケーラブルでなければなりません。どうすればよいでしょうか？

Pub/Subトピックから継続的に読み取り、タンブリング・ウィンドウを使用して必要な集計を実行するストリーミングDataflowジョブを作成する。

バッチDataflowジョブを1時間ごとに実行するようスケジュールし、Pub-Subトピックから利用可能なすべてのメッセージを取得し、必要な集計を実行する。

クラウド関数を1時間ごとに実行するようスケジュールし、Pub/Subトピックからすべての回避可能なメッセージを取得し、必要な集計を実行する。

新しいメッセージがトピックにパブリッシュされるたびに、Pub/Sub トリガーを使用して実行する必要なデータ処理を実行するクラウド関数を作成します。

新しい質問 107
BigQueryでテーブルの非正規化に使用できる2つのメソッドを教えてください。

1) テーブルを複数のテーブルに分割する。

1) テーブルを1つのテーブルに結合する。

1) パーティショニングされたテーブルを使う。

1) 入れ子になった繰り返しフィールドを使う。

新しい質問 108
Google Cloud上のデータパイプライン用に、非常に大きなテキストファイル用のストレージを設計しています。ANSI SQLクエリをサポートしたい。また、Googleが推奨するプラクティスを使用して、入力ロケーションからの圧縮と並列ロードをサポートしたいと考えています。どうすればよいでしょうか？

Cloud Dataflowを使ってテキストファイルを圧縮されたAvroに変換。ストレージとクエリにBigQueryを使用。

Cloud Dataflowを使用してテキストファイルを圧縮Avroに変換します。Cloud StorageとBigQueryの永続的なリンクテーブルをクエリに使用する。

グリッドコンピューティングツールを使用してテキストファイルをgzip圧縮する。ストレージとクエリにBigQueryを使用。

グリッド・コンピューティング・ツールを使ってテキストファイルをgzip圧縮する。クラウドストレージを使用し、クエリのためにクラウドBigtableにインポートする。

新しい質問 109
Dataflowはバッチ・データ・パイプラインとストリーミング・データ・パイプラインのどちらを処理するのか？

バッチデータパイプラインのみ

バッチとストリーミングの両方のデータパイプライン

ストリーミング・データ・パイプラインのみ

上記なし

新しい質問 110
Google Cloud上のデータパイプライン用に、Cloud Pub/SubからBigQueryへのJSONメッセージの書き込みと変換を行うサービスを選択している。サービスコストを最小限に抑えたい。また、最小限の手動介入で、サイズが変化する入力データ量を監視し、対応したいと考えています。どうすればよいでしょうか？

Cloud Dataprocを使用して変換を実行します。クラスタのCPU使用率を監視する。コマンドラインからクラスタのワーカーノード数を変更します。

Cloud Dataprocを使用して変換を実行します。diagnosecommandを使用して、運用出力アーカイブを生成します。ボトルネックを特定し、クラスタ・リソースを調整します。

Cloud Dataflowを使って変換を実行する。Stackdriverでジョブシステムの遅延を監視する。ワーカーインスタンスにデフォルトのオートスケーリング設定を使用する。

Cloud Dataflowを使用して変換を実行します。ジョブのサンプルの総実行時間を監視します。
必要に応じて、デフォルト以外のCompute Engineのマシンタイプを使用するようにジョブを設定します。

新しい質問 111
ニューラル・ネットワークにカテゴリー間の関係を学習させるにはどうすればいいのか？

マルチホットカラムの作成

ワンホットコラムの作成

ハッシュバケットを作成する

埋め込みカラムを作成する