bigquery 实时同步问题(BigQuery概述指南)

BigQuery 是一种全代管式企业数据仓库,可帮助您使用机器学习、地理空间分析和商业智能等内置功能管理和分析数据,我来为大家科普一下关于bigquery 实时同步问题?以下内容希望对你有帮助!

bigquery 实时同步问题(BigQuery概述指南)

bigquery 实时同步问题

BigQuery

BigQuery 是一种全代管式企业数据仓库,可帮助您使用机器学习、地理空间分析和商业智能等内置功能管理和分析数据。

BigQuery 的无服务器架构允许您使用 SQL 查询来回答组织面临的最大问题,而无需管理基础架构。BigQuery 的可扩缩、分布式分析引擎可让您在几秒钟内查询 TB 级数据,在几分钟内查询 PB 级数据。

BigQuery 实现分析数据的计算引擎与存储选项分离,可最大限度地提高灵活性。

BigQuery 界面包括 Google Cloud 控制台界面和 BigQuery 命令行工具。

BigQuery 存储

BigQuery 在表、行和列中显示数据,并完全支持数据库事务语义 (ACID)。

BigQuery 存储会自动跨多个位置进行复制,以提供高可用性。

  • BigQuery加载数据方式

》》》Storage Write API 流式传输数据。

》》》从本地文件或 Cloud Storage 批量加载数据,这些数据使用以下格式:Avro、Parquet、ORC、CSV、JSON、Datastore、Firestore 格式。

》》》BigQuery Data Transfer Service 可自动注入数据。

BigQuery 分析
  • ANSI 标准 SQL 查询(SQL:2011 支持),其中包括对联接、嵌套和重复字段、分析和聚合函数、多语句查询以及包含地理空间分析的各种空间函数(地理信息系统)的支持。
  • 创建视图以共享您的分析。
  • 商业智能工具支持,包括 BI Engine 和 Looker 数据洞察、Looker、Google 表格以及第三方工具(如 Tableau 和 Power BI)。
  • BigQuery ML 提供机器学习建模和预测分析。
  • 使用外部表和联合查询来查询 BigQuery 外部的数据。
BigQuery 管理

BigQuery 可集中管理数据和计算资源,而 Identity and Access Management (IAM) 可帮助您利用 Google Cloud 中所用的访问模型保护这些资源。Google Cloud 安全最佳实践提供了一种可靠且灵活的方法,该方法包括传统的边界安全机制或更复杂、更精细的深度防御方法。

  • 数据安全和治理简介可帮助您了解数据治理,以及可能需要采取哪些控制措施来保护 BigQuery 资源。
  • 作业是 BigQuery 代表您执行的操作,用于加载、导出、查询或复制数据。
  • 借助预留,您可以在按需价格和固定价格之间切换。
BigQuery命令行工具检查公共数据集

BigQuery 在 bigquery-public-data.samples 数据集中提供了多个示例表

检查 samples 数据集中的 shakespeare 表:

bq show bigquery-public-data:samples.shakespeare

查询公共数据集

使用 bq query 命令对数据运行 SQL 查询

  • 确定子字符串 raisin 在莎士比亚作品集中出现的次数:

bq query --use_legacy_sql=false \ 'SELECT word, SUM(word_count) AS count FROM `bigquery-public-data.samples.shakespeare` WHERE word LIKE "%raisin%" GROUP BY word;'

  • 在莎士比亚作品集中搜索子字符串 huzzah:

bq query --use_legacy_sql=false \ 'SELECT word FROM `bigquery-public-data.samples.shakespeare` WHERE word = "huzzah";'

创建数据集
  • 创建名为 babynames 的数据集:

bq mk babynames

  • 确认 babynames 数据集现已显示在项目中:

bq ls

将数据加载到表中

打开 yob2010.txt 文件。 这是一个英文逗号分隔值 (CSV) 文件,其中包含三列:姓名、出生时指定的性别和使用该姓名的儿童人数。该文件没有标题行。

  • 在 babynames 数据集中,将源文件 yob2010.txt 加载到名为 names2010 的新表中:

bq load babynames.names2010 yob2010.txt name:string,assigned_sex_at_birth:string,count:integer

  • 确认 names2010 表现已显示在 babynames 数据集内:

bq ls babynames

  • 确认新 names2010 表的表架构包含 name: string、assigned_sex_at_birth: string 和 count: integer:

bq show babynames.names2010

查询表数据
  • 确定数据中最热门的女孩姓名:

bq query --use_legacy_sql=false \ 'SELECT name, count FROM `babynames.names2010` WHERE assigned_sex_at_birth = "F" ORDER BY count DESC LIMIT 5;'

  • 确定数据中最罕见的男孩姓名:

bq query --use_legacy_sql=false \ 'SELECT name, count FROM `babynames.names2010` WHERE assigned_sex_at_birth = "M" ORDER BY count ASC LIMIT 5;'

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页