
Google宣布推出了资料验证工具(DVT),这是一个开源的Python命令列工具,可以跨不同环境进行自动化资料验证。
Google提到,资料验证是资料仓储、资料库和资料湖搬迁的关键步骤,工作包括比较来源和目标表格的结构化和半结构化资料,并在每个搬迁步骤,像是SQL脚本转换、资料和架构搬迁以及ETL搬迁等,验证这些步骤是否正确完成。
跨平台验证资料虽然重要但是却非常耗时,用户可能必须要建构和维护自定义解决方案,才能完成这项工作,而DVT提供了一个标准化的解决方案,可供用户根据本地端系统中的资料,验证Google云端中心搬迁的资料,DVT能够与现有企业基础设施和ETL工作管线整合,进行无缝且自动化的验证。
DVT使用Ibis框架来连接到大量资料来源,Ibis则是一个Python框架,能够用标准方式存取资料,并且对不同来源的资料进行分析运算,简单来说,Ibis供用户方便地使用Python编写SQL,但在存取资料外,其重点在於分析,除了可用於SQL资料库,还支援後端各种资料储存系统。
有了Ibis的支援,DVT能够连接到大量的资料源上,包括BigQuery、AWS S3、MySQL、Oracle、Spanner、SQL Server以及Teradata等。DVT能执行多层资料验证,从各种表格层级的验证到列验证。