使用谷歌云计算认证的专业数据工程师考试试题和答案 [Q41-Q64] 进行练习


给本帖评分

使用专业数据工程师试卷练习 Google Cloud Certified 认证考试问题和答案

保证退款的 100% 真实专业数据工程师考试试题

谷歌专业数据工程师考试是谷歌为专门从事数据工程的专业人士提供的一项认证。专业数据工程师考试旨在测试考生对数据处理系统、数据建模、数据治理和数据转换的理解。谷歌认证专业数据工程师考试认证旨在验证考生在谷歌云平台数据工程技术方面的专业知识以及设计和开发有效数据解决方案的能力。

 

Q41. 您有一个使用时间戳和 ID 列上的 WHERE 子句过滤 BigQuery 表的查询。通过使用 bq query --dry_run,您了解到该查询会触发对表的全面扫描,尽管对时间戳和 ID 的过滤只选择了整个数据的一小部分。您想减少 BigQuery 扫描的数据量,同时对现有 SQL 查询做最小的更改。您应该怎么做?

 
 
 
 

Q42. 企业的营销团队会定期更新客户数据集的某个部分。
营销团队给了您一个包含 100 万条记录的 CSV,必须在 BigQuery 中进行更新。当您在 BigQuery 中使用 UPDATE 语句时,会收到 quotaExceeded 错误。您应该怎么办?

 
 
 
 

Q43. 关于广泛深度学习模型,以下哪些说法是正确的?(请选择 2 个答案)。

 
 
 
 

Q44. 将 ETL 作业迁移到 BigQuery 上运行后,您需要验证迁移作业的输出是否与原始作业的输出相同。您加载了一个包含原始作业输出的表,并希望将其内容与迁移作业的输出进行比较,以确定它们是否相同。这两个表都不包含主键列,因此无法将它们连接起来进行比较。
你该怎么办?

 
 
 
 

Q45. 哪项不是导致 Cloud Bigtable 性能低下的合理原因?

 
 
 
 

Q46. 您想在云存储中存档数据。由于某些数据非常敏感,您希望使用 "不信任任何人"(TNO)方法来加密数据,以防止云提供商的员工解密您的数据。您应该怎么做?

 
 
 
 

Q47. 您供职的运输公司使用手持扫描仪读取运输标签。贵公司有严格的数据隐私标准,要求扫描仪只能将收件人的个人身份信息(PII)传输到分析系统,这违反了用户隐私规则。您希望使用云原生托管服务快速构建一个可扩展的解决方案,以防止将 PII 暴露给分析系统。
你该怎么办?

 
 
 
 

Q48. 您的天气应用程序每 15 分钟查询一次数据库,以获取当前温度。前端由 Google 应用引擎提供支持,服务器拥有数百万用户。您应该如何设计前端以应对数据库故障?

 
 
 
 

Q49. 贵公司的客户和订单数据库通常负载很重。这使得很难在不影响业务的情况下对它们进行分析。数据库位于 MySQL 集群中,每晚使用 mysqldump 进行备份。您希望在执行分析时尽量不影响运行。
你该怎么办?

 
 
 
 

Q50. 您在云存储中存储了历史数据。您需要对历史数据进行分析。您希望使用一种无需编程或 SQL 知识的解决方案来检测无效数据条目并执行数据转换。
你该怎么办?

 
 
 
 

Q51. 关于数据流管道,以下哪项不正确?

 
 
 
 

Q52. 您正在为基于机器学习的订餐服务设计数据库模式,该服务将预测用户想吃什么。以下是您需要存储的部分信息:
用户资料:用户喜欢吃什么,不喜欢吃什么

用户账户信息:姓名、地址、首选用餐时间

订单信息:何时下单、从哪里下单、向谁下单

数据库将用于存储产品的所有交易数据。您希望优化数据模式。您应该使用哪种 Google 云平台产品?

 
 
 
 

Q53. 云大表是存储大量数据的推荐选择。
____________________________?

 
 
 
 

Q54. 关于传统 SQL 和标准 SQL,以下哪些说法不正确?

 
 
 
 

Q55. 您正在为 Google Cloud 上的数据管道选择从 Cloud Pub/Sub 到 BigQuery 的 JSON 消息写入和转换服务。您希望最大限度地降低服务成本。此外,您还希望以最少的人工干预监控并适应大小不一的输入数据量。您应该怎么做?

 
 
 
 

Q56. 您正在建立一个服装推荐模型。您知道用户的时尚偏好可能会随着时间的推移而改变,因此您建立了一个数据管道,以便在有新数据时将其流回模型。您应该如何使用这些数据来训练模型?

 
 
 
 

Q57. 案例研究 1 - Flowlogistic
公司概况
福禄物流是一家领先的物流和供应链供应商。他们帮助世界各地的企业管理资源,并将资源运送到最终目的地。公司发展迅速,业务范围不断扩大,包括铁路、卡车、飞机和远洋运输。
公司背景
公司最初是一家地区性卡车运输公司,后来扩展到其他物流市场。
由于没有更新基础设施,订单和货物的管理和跟踪成为瓶颈。为了改善运营,Flowlogistic 开发了在包裹层面实时跟踪货物的专有技术。但是,他们无法部署该技术,因为他们基于 Apache Kafka 的技术堆栈无法支持处理量。此外,Flowlogistic 希望进一步分析其订单和发货情况,以确定如何以最佳方式部署资源。
解决方案理念
Flowlogistic 希望利用云技术实现两个概念:
* 在实时库存跟踪系统中使用其专有技术,以显示货物的位置
* 对所有订单和装运日志(包含结构化和非结构化数据)进行分析,以确定如何以最佳方式部署资源,以及要拓展哪些市场。他们还希望使用预测分析,以便更早地了解货物何时会延误。
现有技术环境
Flowlogistic 的架构位于一个数据中心内:
* 数据库
2 个集群中的 8 台物理服务器
- SQL Server - 用户数据、库存、静态数据
3 台物理服务器
- Cassandra - 元数据、跟踪信息
10 台 Kafka 服务器--跟踪信息聚合和批量插入
* 应用服务器--客户前端、订单/客户中间件
在 20 台物理服务器上运行 60 台虚拟机
- Tomcat - Java 服务
- Nginx - 静态内容
- 批处理服务器
* 存储设备
- 用于虚拟机 (VM) 主机的 iSCSI
- 光纤通道存储区域网络 (FC SAN) - SQL 服务器存储
- 网络附加存储 (NAS) 图像存储、日志、备份
* 10 台 Apache Hadoop /Spark 服务器
- 核心数据湖
- 数据分析工作量
* 20 台杂项服务器
- Jenkins、监控、堡垒主机、
业务要求
* 建立一个可靠的、可重复的生产环境。
* 在集中式数据湖中汇总数据以进行分析
* 利用历史数据对未来货运进行预测分析
* 利用专有技术准确跟踪全球范围内的每一批货物
* 通过快速提供新资源,提高业务灵活性和创新速度
* 分析和优化架构,提高云计算性能
* 在满足所有其他要求的情况下,完全迁移到云端
技术要求
* 处理流式数据和批处理数据
* 迁移现有的 Hadoop 工作负载
* 确保架构具有可扩展性和弹性,以满足公司不断变化的需求。
* 尽可能使用托管服务
* 加密飞行和静态数据
* 在生产数据中心和云环境之间连接 VPN SEO 声明 我们的发展速度太快,无法升级基础设施确实阻碍了我们的进一步发展和效率的提高。我们在全球范围内运送货物的效率很高,但在运送数据方面却效率低下。
我们需要对信息进行整理,以便更轻松地了解客户在哪里以及他们在运送什么。
首席技术官声明
信息技术从来都不是我们的优先事项,因此,随着数据的增长,我们对技术的投入却不够。我有一个很好的员工来管理 IT,但他们忙于管理我们的基础设施,我无法让他们去做真正重要的事情,比如整理我们的数据、建立分析,以及想办法实施首席财务官的跟踪技术。
首席财务官声明
我们的部分竞争优势在于,我们会对延迟装运和交货进行处罚。随时了解发货情况直接关系到我们的底线和盈利能力。此外,我不想投入资金来构建服务器环境。
Flowlogistic 正在推出实时库存跟踪系统。所有跟踪设备都将发送包装跟踪消息,这些消息现在将发送到一个单一的谷歌云 Pub/Sub 主题,而不是 Apache Kafka 集群。然后,一个用户应用程序将处理这些消息以进行实时报告,并将其存储在 Google BigQuery 中以进行历史分析。您要确保包数据可以随时间推移进行分析。
你应该采取哪种方法?

 
 
 
 

Q58. MJTelco 案例研究
公司概况
MJTelco 是一家初创公司,计划在全球快速增长、服务不足的市场建立网络。
该公司拥有创新光通信硬件的专利。基于这些专利,他们可以用廉价的硬件创建许多可靠的高速主干链路。
公司背景
MJTelco 由经验丰富的电信高管创立,采用的技术最初是为克服太空通信挑战而开发的。作为运营的基础,他们需要创建一个分布式数据基础设施,以推动实时分析并结合机器学习来不断优化拓扑结构。由于硬件成本低廉,他们计划超量部署网络,以便考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球各地,在数据消费者和系统提供者之间形成了多对多的关系。经过慎重考虑,他们认为公共云是支持其需求的完美环境。
解决方案理念
MJTelco 正在其实验室成功实施一个概念验证 (PoC) 项目。他们有两个主要需求:
* 扩展和加固其 PoC,以支持在安装数量超过 50,000 个时产生的更多数据流。
* 完善机器学习循环,验证并改进用于控制拓扑定义的动态模型。
MJTelco 还将使用三个独立的运行环境(开发/测试、暂存和生产),以满足运行实验、部署新功能和服务生产客户的需要。
业务要求
* 在不可预测的分布式电信用户社区中,以最小的成本扩展生产环境,在需要时随时随地配置资源。
* 确保其专有数据的安全,以保护其领先的机器学习和分析。
* 为分布在各地的研究人员提供可靠、及时的数据分析途径
* 维护隔离环境,支持机器学习模型的快速迭代,同时不影响客户。
技术要求
* 确保安全高效地传输和存储遥测数据
* 快速扩展实例,支持 10,000 到 100,000 个数据提供商,每个提供商可提供多个数据流。
* 允许根据数据表进行分析和演示,最多可跟踪约 2 年的数据存储
100 米记录/天
* 支持监测基础设施的快速迭代,重点关注遥测流和生产学习周期中的数据管道问题。
首席执行官声明
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们的硬件价格低廉,可靠性高,因此具有成本优势。我们需要快速稳定我们的大型分布式数据管道,以实现我们的可靠性和容量承诺。
首席技术官声明
我们的公共云服务必须按照广告宣传的那样运行。我们需要能够扩展并确保数据安全的资源。我们还需要数据科学家能够仔细研究并快速调整模型的环境。由于我们依赖自动化来处理数据,因此我们还需要开发和测试环境能够在我们迭代的过程中正常工作。
首席财务官声明
该项目规模太大,我们无力维护数据和分析所需的硬件和软件。此外,我们也没有能力为监控如此多的数据源配备运营团队,因此我们将依靠自动化和基础设施。谷歌云的机器学习将使我们的定量研究人员能够解决我们的高价值问题,而不是数据管道的问题。
您需要根据以下要求为操作团队编写可视化内容:
* 报告必须包括所有 50 000 个装置最近 6 周的遥测数据(每分钟取样一次)。
* 报告与实时数据的延迟时间不得超过 3 小时。
* 可执行报告应只显示次优链接。
* 大多数次优链接应排在最前面。
* 次优链接可按区域地理进行分组和过滤。
* 用户加载报告的响应时间必须小于 5 秒。
哪种方法符合要求?

 
 
 
 

Q59. 计算引擎虚拟机 (n2-standard -32)上的 TensorFlow 机器学习模型需要两天才能完成构建。您希望以经济高效的方式缩短训练时间。您应该怎么做?

 
 
 
 

Q60. 您正在开展一个涉及用户私人数据的敏感项目。您在 Google 云平台上建立了一个项目,用于在内部开展工作。一名外部顾问将协助您在谷歌云数据流管道中为您的项目编码一个复杂的转换。您应该如何维护用户隐私?

 
 
 
 

Q61. 哪种 Google 云平台服务可替代带有 Hive 的 Hadoop?

 
 
 
 

Q62. 您已启用 Firebase Analytics 和 Google BigQuery 之间的免费集成。现在,Firebase 每天都会在 BigQuery 中自动创建一个新表,格式为 app_events_YYYYMMDD。您想用传统 SQL 查询过去 30 天的所有表。该怎么办?

 
 
 
 

Q63. 关于广泛深度学习模型,以下哪些说法是正确的?(请选择 2 个答案)。

 
 
 
 

Q64. Cloud Bigtable 的 _________ 使在 Cloud Dataflow 管道中使用 Cloud Bigtable 成为可能。

 
 
 
 

PDF 下载 Google 测试,获得辉煌结果!: https://www.dumpsmaterials.com/Professional-Data-Engineer-real-torrent.html

         

发表回复

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

输入下图中的文字