AVRO vs Parquet-该选哪一个?

AVRO vs Parquet-该选哪一个?

精选文章moguli202025-04-07 18:02:2515A+A-


我不会说一个更好,而另一个则不是,因为这完全取决于它们将在哪里使用。

Apache Avro是在Apache的Hadoop项目中开发的远程过程调用和数据序列化框架。 它使用JSON定义数据类型和协议,并以紧凑的二进制格式序列化数据。 (由维基百科)

· 由于它是基于行的格式,因此在需要访问所有字段时最好使用

· 文件支持块压缩并且可拆分

· 可以从流数据写入(例如Apache Flink)

· 适用于写密集型操作

另一方面,Apache Parquet是Apache Hadoop生态系统的一种免费的,面向列的开源数据存储格式。 它类似于Hadoop中可用的其他列存储文件格式,即RCFile和ORC。 它提供了具有增强性能的高效数据压缩和编码方案,可批量处理复杂数据。 (由维基百科)

· 由于它是基于列的格式,因此最好只在需要访问特定字段时使用

· 每个数据文件都包含一组行的值

· 无法通过流式数据写入,因为它需要等待块完成。 但是,这将使用微批量(例如Apache Spark)工作。

· 适用于数据探索-读取密集,复杂或分析性查询,低延迟数据

两者都支持以下内容,但在一定程度上取决于:

· 模式演变

· 嵌套数据集

(本文翻译自Ana Esguerra的文章《AVRO vs Parquet — what to use?》,参考:https://medium.com/@
minyodev/avro-vs-parquet-what-to-use-518ccbe8fb0c)

点击这里复制本文地址 以上内容由莫古技术网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

莫古技术网 © All Rights Reserved.  滇ICP备2024046894号-2