likes
comments
collection
share

Snowflake利用Python来对抗Teradata、Google BigQuery和AWS Redshift

作者站长头像
站长
· 阅读数 9

Snowflake利用Python来对抗Teradata、Google BigQuery和AWS Redshift

Snowflake的更新包括在Snowpark上引入对Python的支持,数据访问能力,以及用于内部存储的外部表

基于云计算的数据仓库公司Snowflake周二在其年度Snowflake峰会上推出了一套新的工具和集成,以对抗Teradata等对手公司,以及谷歌BigQuery和亚马逊Redshift等服务。

这些新功能包括数据访问工具和公司的Snowpark应用开发系统对Python的支持,主要针对数据科学家数据工程师和开发人员,目的是加速他们的机器学习之旅,进而加快应用开发。

一年前推出的Snowpark是一个数据框架式的开发环境,旨在让开发人员以无服务器的方式将他们喜欢的工具部署到Snowflake的虚拟仓库计算引擎。对Python的支持正在公开预览中。

Snowflake产品高级副总裁Christian Kleinerman说:"Python可能是我们从客户那里听到的要求最多的一项功能"。

对Python的需求是有道理的,因为它是数据科学家的首选语言,分析家们说。

"Constellation Research的首席分析师Doug Henschen说:**"**Snowflake实际上在这方面正在迎头赶上,因为竞争对手包括Teradata、Google BigQuery和Vertica已经有Python支持。

在峰会上宣布的一项更新中,该公司表示,它正在为应用开发和迭代增加Streamlit集成。Streamlit是一个开源的Python应用框架,针对机器学习和数据科学工程团队,帮助可视化,改变和分享数据,在3月被Snowflake收购。

dbInsights首席分析师Tony Baer表示,此次整合将允许用户留在Snowflake环境中,不仅可以访问、保护和治理数据,还可以开发数据科学应用程序来建模和分析数据。

Snowflake推出与Python相关的集成服务

其他一些与Python相关的整合包括Snowflake Worksheets for Python、Large Memory Warehouses和SQL Machine Learning。

Snowflake Worksheets for Python是私人预览版,旨在让企业在该公司基于网络的界面(被称为Snowsight)中开发管道、机器学习模型和应用程序,该公司表示,它具有代码自动完成和自定义逻辑生成等能力。

为了帮助数据科学家和开发团队执行内存密集型操作,如特征工程和大型数据集的模型训练,该公司说它正在开发一个名为大内存仓库的功能。

目前处于开发阶段,大内存仓库将通过与Anaconda数据科学平台的整合为Python库提供支持,它补充说。

"多个对手是可以配置的,以支持大内存仓库以及Python函数和语言支持,所以这是Snowflake跟上市场的需求,"Henschen说。

Snowflake也在提供SQL机器学习,从时间序列数据开始,在私人预览中。该公司表示,这项服务将帮助企业在商业智能应用和仪表盘中嵌入机器学习驱动的预测和分析。

据Henschen说,许多分析性数据库供应商一直在建立机器学习模型用于数据库内执行。

"Snowflake从时间序列数据分析开始的理由是[它是]更流行的机器学习分析,因为它是基于以前观察到的值来预测未来的值,"Henschen说,并补充说时间序列分析在金融领域有许多使用案例。

Snowflake更新实现了更多的数据访问

由于更快的数据访问可以带来更快的应用开发,Snowflake在周二还推出了新的功能,包括流数据支持,Snowflake中的Apache Iceberg表,以及用于企业内部存储的外部表。

流媒体数据支持,这是一个私人预览,将有助于消除流媒体和批处理管道与Snowpipe流之间的界限。Snowpipe是该公司的连续数据摄取服务。

据Henschen说,推出该功能的理由是人们对支持低延迟选项的兴趣很高,包括近实时和真正的流媒体,而这个市场上的大多数供应商都勾选了流媒体的选项。

"该功能为工程团队提供了一种内置的方式来分析流和历史数据,所以数据工程师不必自己去拼凑一些东西。这是一个节省时间的方法,"Henschen说。

为了跟上对更多开源表格格式的需求,该公司表示,它正在开发Apache Iceberg Tables,以便在其环境中运行。

"Apache Iceberg是一种非常热门的开源表格式,它正在迅速获得分析数据平台的青睐。像Iceberg这样的表格式提供了元数据,有助于组成和可扩展的性能。冰山最近也被谷歌采用于其Big Lake产品,"Henschen说。

同时,为了保持其内部客户的参与,同时试图让他们采用其云数据平台,Snowflake正在推出外部表内部存储。该公司表示,目前处于私人预览阶段,该工具允许用户访问他们在企业内部存储系统中的数据,这些公司包括戴尔科技和纯存储公司。

"Snowflake有一段时间的'云端专用'政策,所以他们显然有大的重要客户,他们希望有某种方式将企业内部数据带入分析,而不需要将其全部移入Snowflake,"Henschen说。

此外,Henschen说,包括Teradata、Vertica和Yellowbrick在内的竞争对手提供企业内部以及混合和多云部署。

转载自:https://juejin.cn/post/7126527170540732452
评论
请登录