谷歌 AI 研究人员推出了 CardBench 基准,这是一个为学习型基数估计(cardinality estimation,简称 CE)系统设计的评估框架。基数估计在优化关系数据库查询性能中起着关键作用,它涉及预测数据库查询将返回的中间结果数量,这对查询优化器选择执行计划至关重要。
项目背景:
- 基数估计对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法非常关键。
- 现代数据库系统中广泛使用的基数估计技术依赖于启发式方法和简化模型。
- 数据驱动方法试图在不执行查询的情况下对数据分布进行建模。
CardBench 特点:
- 包含20个不同真实数据库中的数千次查询,提供了一个全面和多样化的基准。
- 支持基于实例的模型、零点模型和微调模型三种关键设置。
- 提供两组训练数据,一组用于单个表查询,另一组用于二进制连接查询。
- 基准测试包括9125个单表查询和8454个二进制连接查询。
性能测试:
- 微调图神经网络(GNN)模型在二进制连接查询中的性能表现优于零点模型。
- 即使是500次查询,对预训练模型进行微调也能显著提高性能。
总结:
CardBench 代表了在学习基数估计方面的重大进步,它为研究人员提供了一个全面、多样的基准,以系统地评估和比较不同的 CE 模型。该基准支持需要较少数据和训练时间的微调模型,为实际应用中训练新模型成本过高的问题提供了可行的解决方案。
参考链接:
- CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases
- Google AI Introduces CardBench: A Comprehensive Benchmark Featuring Over 20 Real-World Databases and Thousands of Queries to Revolutionize Learned Cardinality Estimation
这篇文章为数据库专业人士和对谷歌 AI 研究感兴趣的读者提供了有价值的信息。如果您需要进一步的信息或有其他问题,请随时告诉我。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...