使用谷歌云计算认证的专业数据工程师考试试题和答案[Q41-Q64]进行练习：免费考试试卷材料：http://exams.dumpsmaterials.com

免费考试试卷材料
https://exams.dumpsmaterials.com/zh/2023/12/28/谷歌云认证考试问题答案-q41-q64-专业数据工程师转储练/
导出日期：Thu Dec 5 2:15:54 2024 / +0000 GMT

使用谷歌云计算认证的专业数据工程师考试试题和答案 [Q41-Q64] 进行练习

使用专业数据工程师试卷练习 Google Cloud Certified 认证考试问题和答案

保证退款的 100% 真实专业数据工程师考试试题

谷歌专业数据工程师考试是谷歌为专门从事数据工程的专业人士提供的一项认证。专业数据工程师考试旨在测试考生对数据处理系统、数据建模、数据治理和数据转换的理解。谷歌认证专业数据工程师考试认证旨在验证考生在谷歌云平台数据工程技术方面的专业知识以及设计和开发有效数据解决方案的能力。

Q41. 您有一个使用时间戳和 ID 列上的 WHERE 子句过滤 BigQuery 表的查询。通过使用 bq query --dry_run，您了解到该查询会触发对表的全面扫描，尽管对时间戳和 ID 的过滤只选择了整个数据的一小部分。您想减少 BigQuery 扫描的数据量，同时对现有 SQL 查询做最小的更改。您应该怎么做？

为每个 ID 创建一个单独的表。

使用 LIMIT 关键字减少返回的记录数。

使用分区列和聚类列重新创建表格。

使用 bq query - -maximum_bytes_billed 标志限制计费字节数。

Q42. 企业的营销团队会定期更新客户数据集的某个部分。
营销团队给了您一个包含 100 万条记录的 CSV，必须在 BigQuery 中进行更新。当您在 BigQuery 中使用 UPDATE 语句时，会收到 quotaExceeded 错误。您应该怎么办？

减少每天更新的记录数，使其不超出 BigQuery UPDATE DML 语句的限制。

在 Google 云平台控制台的配额管理部分增加 BigQuery UPDATE DML 语句限制。

在云存储中将源 CSV 文件拆分成更小的 CSV 文件，以减少每个 BigQuery 作业的 BigQuery UPDATE DML 语句数量。

将 CSV 文件中的新记录导入新的 BigQuery 表。创建 BigQuery 作业，将新记录与现有记录合并，并将结果写入新的 BigQuery 表。

Q43. 关于广泛深度学习模型，以下哪些说法是正确的？(请选择 2 个答案）。

广度模型用于记忆，深度模型用于泛化。

广度和深度模型的一个很好的应用是推荐系统。

广度模型用于泛化，而深度模型用于记忆。

广度和深度模型的一个很好的应用是小型线性回归问题。

Q44. 将 ETL 作业迁移到 BigQuery 上运行后，您需要验证迁移作业的输出是否与原始作业的输出相同。您加载了一个包含原始作业输出的表，并希望将其内容与迁移作业的输出进行比较，以确定它们是否相同。这两个表都不包含主键列，因此无法将它们连接起来进行比较。
你该怎么办？

使用 RAND() 函数从表格中随机选择样本，并对样本进行比较。

使用 HASH() 函数从表格中随机选择样本，并对样本进行比较。

使用 Dataproc 集群和 BigQuery Hadoop 连接器从每个表中读取数据，并在排序后从表中的非时间戳列计算哈希值。比较每个表的哈希值。

使用 OVER() 函数创建分层随机样本，并比较每个表格中的等效样本。

Q45. 哪项不是导致 Cloud Bigtable 性能低下的合理原因？

工作负载不适合 Cloud Bigtable。

表的模式设计不正确。

Cloud Bigtable 集群有太多节点。

网络连接有问题。

Q46. 您想在云存储中存档数据。由于某些数据非常敏感，您希望使用 "不信任任何人"（TNO）方法来加密数据，以防止云提供商的员工解密您的数据。您应该怎么做？

使用 gcloud kms keys creat 创建对称密钥。然后使用 gcloud kms encrypt 使用密钥和唯一的附加验证数据 (AAD) 加密每个存档文件。使用 gsutil cp 将每个加密文件上传到云存储桶，并将 AAD 保留在 Google 云之外。

使用 gcloud kms keys create 创建对称密钥。然后使用 gcloud kms encrypt 用密钥加密每个存档文件。使用 gsutil cpto 将每个加密文件上传到云存储桶。
手动销毁之前用于加密的密钥，并旋转一次密钥。

在 .botoconfiguration 文件中指定客户提供的加密密钥 (CSEK)。使用 gsutil cpto 将每个存档文件上传到云存储桶。将 CSEK 保存在 Cloud Memorystore 中，作为秘密的永久存储。

在 .botoconfiguration 文件中指定客户提供的加密密钥 (CSEK)。使用 gsutil cpto 将每个存档文件上传到云存储桶。将 CSEK 保存在只有安全团队才能访问的不同项目中。

Q47. 您供职的运输公司使用手持扫描仪读取运输标签。贵公司有严格的数据隐私标准，要求扫描仪只能将收件人的个人身份信息（PII）传输到分析系统，这违反了用户隐私规则。您希望使用云原生托管服务快速构建一个可扩展的解决方案，以防止将 PII 暴露给分析系统。
你该怎么办？

在 BigQuery 中创建授权视图，限制对包含敏感数据的表的访问。

在计算引擎虚拟机上安装第三方数据验证工具，检查传入数据中是否有敏感信息。

使用 Stackdriver 日志分析通过总流水线的数据，以识别可能包含敏感信息的事务。

构建一个云函数，读取主题并调用云数据丢失防护 API。
使用标记和置信度来通过或隔离数据桶中的数据，以便进行审查。

Q48. 您的天气应用程序每 15 分钟查询一次数据库，以获取当前温度。前端由 Google 应用引擎提供支持，服务器拥有数百万用户。您应该如何设计前端以应对数据库故障？

发出命令重新启动数据库服务器。

以指数后退方式重试查询，上限为 15 分钟。

每秒重试一次查询，直到重新上线，以尽量减少数据的僵化。

将查询频率降低到每小时一次，直到数据库恢复在线。

Q49. 贵公司的客户和订单数据库通常负载很重。这使得很难在不影响业务的情况下对它们进行分析。数据库位于 MySQL 集群中，每晚使用 mysqldump 进行备份。您希望在执行分析时尽量不影响运行。
你该怎么办？

在 MySQL 集群中添加一个节点，并在那里构建一个 OLAP 立方体。

使用 ETL 工具将数据从 MySQL 加载到 Google BigQuery。

将内部部署的 Apache Hadoop 集群连接到 MySQL 并执行 ETL。

将备份挂载到 Google Cloud SQL，然后使用 Google Cloud Dataproc 处理数据。

Q50. 您在云存储中存储了历史数据。您需要对历史数据进行分析。您希望使用一种无需编程或 SQL 知识的解决方案来检测无效数据条目并执行数据转换。
你该怎么办？

使用带有 Beam 的云数据流来检测错误并执行转换。

使用带有配方的 Cloud Dataprep 检测错误并执行转换。

将 Cloud Dataproc 与 Hadoop 作业结合使用，以检测错误并执行转换。

在 BigQuery 中使用联合表进行查询，以检测错误并执行转换。

Q51. 关于数据流管道，以下哪项不正确？

管道是一组操作

管道代表一项数据处理工作

流水线表示一个有向步骤图

管道可在实例之间共享数据

Q52. 您正在为基于机器学习的订餐服务设计数据库模式，该服务将预测用户想吃什么。以下是您需要存储的部分信息：
用户资料：用户喜欢吃什么，不喜欢吃什么

用户账户信息：姓名、地址、首选用餐时间

订单信息：何时下单、从哪里下单、向谁下单

数据库将用于存储产品的所有交易数据。您希望优化数据模式。您应该使用哪种 Google 云平台产品？

BigQuery

云 SQL

云大表

云数据存储

Q53. 云大表是存储大量数据的推荐选择。
____________________________?

延迟极高的多键数据

延迟极低的多键数据

延迟极低的单键数据

延迟极高的单键数据

Q54. 关于传统 SQL 和标准 SQL，以下哪些说法不正确？

标准 SQL 是 BigQuery 的首选查询语言。

如果使用传统 SQL 编写查询，在使用标准 SQL 运行时可能会产生错误。

这两种查询语言的一个区别是如何指定全称表名（即包含相关项目名称的表名）。

您需要为每个数据集设置查询语言，默认为标准 SQL。

Q55. 您正在为 Google Cloud 上的数据管道选择从 Cloud Pub/Sub 到 BigQuery 的 JSON 消息写入和转换服务。您希望最大限度地降低服务成本。此外，您还希望以最少的人工干预监控并适应大小不一的输入数据量。您应该怎么做？

使用 Cloud Dataproc 运行转换。监控群集的 CPU 利用率。通过命令行调整集群中工作节点的数量。

使用 Cloud Dataproc 运行转换。使用 diagnosecommand 生成运行输出存档。找出瓶颈并调整群集资源。

使用云数据流运行转换。使用 Stackdriver 监控作业系统滞后。使用 Worker 实例的默认自动扩展设置。

使用云数据流运行转换。监控抽样作业的总执行时间。
配置作业，以便在需要时使用非默认的计算引擎机器类型。

Q56. 您正在建立一个服装推荐模型。您知道用户的时尚偏好可能会随着时间的推移而改变，因此您建立了一个数据管道，以便在有新数据时将其流回模型。您应该如何使用这些数据来训练模型？

仅根据新数据对模型进行持续再训练。

结合现有数据和新数据，不断重新训练模型。

在现有数据上进行训练，同时使用新数据作为测试集。

使用新数据进行训练，同时将现有数据作为测试集。

Q57. 案例研究 1 - Flowlogistic
公司概况
福禄物流是一家领先的物流和供应链供应商。他们帮助世界各地的企业管理资源，并将资源运送到最终目的地。公司发展迅速，业务范围不断扩大，包括铁路、卡车、飞机和远洋运输。
公司背景
公司最初是一家地区性卡车运输公司，后来扩展到其他物流市场。
由于没有更新基础设施，订单和货物的管理和跟踪成为瓶颈。为了改善运营，Flowlogistic 开发了在包裹层面实时跟踪货物的专有技术。但是，他们无法部署该技术，因为他们基于 Apache Kafka 的技术堆栈无法支持处理量。此外，Flowlogistic 希望进一步分析其订单和发货情况，以确定如何以最佳方式部署资源。
解决方案理念
Flowlogistic 希望利用云技术实现两个概念：
* 在实时库存跟踪系统中使用其专有技术，以显示货物的位置
* 对所有订单和装运日志（包含结构化和非结构化数据）进行分析，以确定如何以最佳方式部署资源，以及要拓展哪些市场。他们还希望使用预测分析，以便更早地了解货物何时会延误。
现有技术环境
Flowlogistic 的架构位于一个数据中心内：
* 数据库
2 个集群中的 8 台物理服务器
- SQL Server - 用户数据、库存、静态数据
3 台物理服务器
- Cassandra - 元数据、跟踪信息
10 台 Kafka 服务器--跟踪信息聚合和批量插入
* 应用服务器--客户前端、订单/客户中间件
在 20 台物理服务器上运行 60 台虚拟机
- Tomcat - Java 服务
- Nginx - 静态内容
- 批处理服务器
* 存储设备
- 用于虚拟机 (VM) 主机的 iSCSI
- 光纤通道存储区域网络 (FC SAN) - SQL 服务器存储
- 网络附加存储 (NAS) 图像存储、日志、备份
* 10 台 Apache Hadoop /Spark 服务器
- 核心数据湖
- 数据分析工作量
* 20 台杂项服务器
- Jenkins、监控、堡垒主机、
业务要求
* 建立一个可靠的、可重复的生产环境。
* 在集中式数据湖中汇总数据以进行分析
* 利用历史数据对未来货运进行预测分析
* 利用专有技术准确跟踪全球范围内的每一批货物
* 通过快速提供新资源，提高业务灵活性和创新速度
* 分析和优化架构，提高云计算性能
* 在满足所有其他要求的情况下，完全迁移到云端
技术要求
* 处理流式数据和批处理数据
* 迁移现有的 Hadoop 工作负载
* 确保架构具有可扩展性和弹性，以满足公司不断变化的需求。
* 尽可能使用托管服务
* 加密飞行和静态数据
* 在生产数据中心和云环境之间连接 VPN SEO 声明我们的发展速度太快，无法升级基础设施确实阻碍了我们的进一步发展和效率的提高。我们在全球范围内运送货物的效率很高，但在运送数据方面却效率低下。
我们需要对信息进行整理，以便更轻松地了解客户在哪里以及他们在运送什么。
首席技术官声明
信息技术从来都不是我们的优先事项，因此，随着数据的增长，我们对技术的投入却不够。我有一个很好的员工来管理 IT，但他们忙于管理我们的基础设施，我无法让他们去做真正重要的事情，比如整理我们的数据、建立分析，以及想办法实施首席财务官的跟踪技术。
首席财务官声明
我们的部分竞争优势在于，我们会对延迟装运和交货进行处罚。随时了解发货情况直接关系到我们的底线和盈利能力。此外，我不想投入资金来构建服务器环境。
Flowlogistic 正在推出实时库存跟踪系统。所有跟踪设备都将发送包装跟踪消息，这些消息现在将发送到一个单一的谷歌云 Pub/Sub 主题，而不是 Apache Kafka 集群。然后，一个用户应用程序将处理这些消息以进行实时报告，并将其存储在 Google BigQuery 中以进行历史分析。您要确保包数据可以随时间推移进行分析。
你应该采取哪种方法？

在云发布/子用户应用程序中，在收到每条信息时都附上时间戳。

在从每个发布设备发送到 Clod Pub/Sub 的出站信息上附加时间戳和包 ID。

使用 BigQuery 中的 NOW () 函数记录事件的时间。

使用 Cloud Pub/Sub 自动生成的时间戳对数据进行排序。

Q58. MJTelco 案例研究
公司概况
MJTelco 是一家初创公司，计划在全球快速增长、服务不足的市场建立网络。
该公司拥有创新光通信硬件的专利。基于这些专利，他们可以用廉价的硬件创建许多可靠的高速主干链路。
公司背景
MJTelco 由经验丰富的电信高管创立，采用的技术最初是为克服太空通信挑战而开发的。作为运营的基础，他们需要创建一个分布式数据基础设施，以推动实时分析并结合机器学习来不断优化拓扑结构。由于硬件成本低廉，他们计划超量部署网络，以便考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球各地，在数据消费者和系统提供者之间形成了多对多的关系。经过慎重考虑，他们认为公共云是支持其需求的完美环境。
解决方案理念
MJTelco 正在其实验室成功实施一个概念验证 (PoC) 项目。他们有两个主要需求：
* 扩展和加固其 PoC，以支持在安装数量超过 50,000 个时产生的更多数据流。
* 完善机器学习循环，验证并改进用于控制拓扑定义的动态模型。
MJTelco 还将使用三个独立的运行环境（开发/测试、暂存和生产），以满足运行实验、部署新功能和服务生产客户的需要。
业务要求
* 在不可预测的分布式电信用户社区中，以最小的成本扩展生产环境，在需要时随时随地配置资源。
* 确保其专有数据的安全，以保护其领先的机器学习和分析。
* 为分布在各地的研究人员提供可靠、及时的数据分析途径
* 维护隔离环境，支持机器学习模型的快速迭代，同时不影响客户。
技术要求
* 确保安全高效地传输和存储遥测数据
* 快速扩展实例，支持 10,000 到 100,000 个数据提供商，每个提供商可提供多个数据流。
* 允许根据数据表进行分析和演示，最多可跟踪约 2 年的数据存储
100 米记录/天
* 支持监测基础设施的快速迭代，重点关注遥测流和生产学习周期中的数据管道问题。
首席执行官声明
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们的硬件价格低廉，可靠性高，因此具有成本优势。我们需要快速稳定我们的大型分布式数据管道，以实现我们的可靠性和容量承诺。
首席技术官声明
我们的公共云服务必须按照广告宣传的那样运行。我们需要能够扩展并确保数据安全的资源。我们还需要数据科学家能够仔细研究并快速调整模型的环境。由于我们依赖自动化来处理数据，因此我们还需要开发和测试环境能够在我们迭代的过程中正常工作。
首席财务官声明
该项目规模太大，我们无力维护数据和分析所需的硬件和软件。此外，我们也没有能力为监控如此多的数据源配备运营团队，因此我们将依靠自动化和基础设施。谷歌云的机器学习将使我们的定量研究人员能够解决我们的高价值问题，而不是数据管道的问题。
您需要根据以下要求为操作团队编写可视化内容：
* 报告必须包括所有 50 000 个装置最近 6 周的遥测数据（每分钟取样一次）。
* 报告与实时数据的延迟时间不得超过 3 小时。
* 可执行报告应只显示次优链接。
* 大多数次优链接应排在最前面。
* 次优链接可按区域地理进行分组和过滤。
* 用户加载报告的响应时间必须小于 5 秒。
哪种方法符合要求？

将数据载入 Google Sheets，使用公式计算指标，并使用筛选器/排序在表格中只显示次优链接。

将数据加载到 Google BigQuery 表格中，编写 Google Apps 脚本来查询数据、计算指标，并在 Google Sheets 表格中仅显示次优行。

将数据加载到谷歌云数据存储表中，编写一个谷歌应用引擎应用程序来查询所有行，应用一个函数来推导指标，然后使用谷歌图表和可视化 API 将结果呈现在表格中。

将数据加载到 Google BigQuery 表中，编写 Google Data Studio 360 报告，连接数据，计算指标，然后使用过滤表达式只显示表中的次优行。

Q59. 计算引擎虚拟机 (n2-standard -32)上的 TensorFlow 机器学习模型需要两天才能完成构建。您希望以经济高效的方式缩短训练时间。您应该怎么做？

将虚拟机类型更改为 n2-highmem-32

将虚拟机类型更改为 e2 standard-32

使用带有 GPU 硬件加速器的虚拟机训练模型

使用带有 TPU 硬件加速器的虚拟机训练模型

Q60. 您正在开展一个涉及用户私人数据的敏感项目。您在 Google 云平台上建立了一个项目，用于在内部开展工作。一名外部顾问将协助您在谷歌云数据流管道中为您的项目编码一个复杂的转换。您应该如何维护用户隐私？

授予顾问在项目中的 "查看器 "角色。

授予顾问项目中云数据流开发人员的角色。

创建服务账户，并允许顾问使用该账户登录。

创建匿名数据样本，供顾问在不同项目中使用。

Q61. 哪种 Google 云平台服务可替代带有 Hive 的 Hadoop？

云数据流

云大表

BigQuery

云数据存储

Q62. 您已启用 Firebase Analytics 和 Google BigQuery 之间的免费集成。现在，Firebase 每天都会在 BigQuery 中自动创建一个新表，格式为 app_events_YYYYMMDD。您想用传统 SQL 查询过去 30 天的所有表。该怎么办？

使用 TABLE_DATE_RANGE 函数

使用 WHERE_PARTITIONTIME 伪列

使用 WHERE date BETWEEN YYYY-MM-DD AND YYYYY-MM-DD

使用 SELECT IF.（日期 >= YYYY-MM-DD AND 日期 <= YYYY-MM-DD

Q63. 关于广泛深度学习模型，以下哪些说法是正确的？(请选择 2 个答案）。

广度模型用于记忆，深度模型用于泛化。

广度和深度模型的一个很好的应用是推荐系统。

广度模型用于泛化，而深度模型用于记忆。

广度和深度模型的一个很好的应用是小型线性回归问题。

Q64. Cloud Bigtable 的 _________ 使在 Cloud Dataflow 管道中使用 Cloud Bigtable 成为可能。

云数据流连接器

数据流 SDK

BiqQuery API

BigQuery 数据传输服务

PDF 下载 Google 测试，获得辉煌结果！： https://www.dumpsmaterials.com/Professional-Data-Engineer-real-torrent.html ¹

链接

https://www.dumpsmaterials.com/Professional-Data-E ngineer-real-torrent.html

发布日期： 2023-12-28 12:29:40
发布日期 GMT: 2023-12-28 12:29:40

修改日期： 2023-12-28 12:29:40
修改后的格林尼治标准时间： 2023-12-28 12:29:40

导出日期：Thu Dec 5 2:15:54 2024 / +0000 GMT
本页从免费考试试卷材料导出 [ http://exams.dumpsmaterials.com ]