在阅读《Hadoop权威指南》中parquet相关章节的时候,我想到了之前看到的MapReduce中split分片的代码,当时只看了基础的FileInputFormat,这次就借着这个机会来看看parquet是如何处理的。
writeSplits细节探究
这段时间在阅读《Hadoop权威指南》,阅读闲暇之余结合书本里的内容看看MapReduce的源码。这里对于writeSplits这个方法做一个源码探究。
MapReduce之reduce过程浅析
博客中关于大数据的第三篇文章,国庆期间继续扒了扒MapReduce相关的源码,这篇文章来快速的总结一下reduce阶段。
MapReduce中的job.setNumReduceTasks(0)原理探究
博客中关于大数据技术的第二篇文章,来分析一下hadoop中必不可少的一环——MapReduce的源码~
DataX学习之HelloWorld
最近去公司的大数据部门轮岗,接的第一个任务就是异构数据的导出项目,趁着机会学习了一下DataX框架,开一个系列来记录一下。
论NodeJS中的循环引用
最近在用node的时候排查一个问题排查了半天,最终发现是循环引用导致的问题,故在此记录一下。
浅谈Flutter上的数据监控
最近看公司Flutter项目的时候,发现想要分析数据非常的困难,不是数据缺失就是数据异常,作为一个成熟的企业来说这是非常危险的,缺少了数据就像船只在海上航行的时候没有了方向,将会变得无所适从,所以这周花了点时间去优化。
typescript中的decorator
最近在做一些node上的中间件,不可避免的用到了typescript中的注解,而在ts中,注解有另外一个叫法:decorator,于是花了一点时间搞明白了在ts中注解是如何运行的,下面做一个简单的记录。
Flutter启动流程初探
最近开始研究Flutter了,俗话说工欲善其事必先利其器,在正式运用Flutter之前肯定要先了解了解它的工作机制,于是开始了Flutter以及Dart的源码学习之旅,这次就简单的分析一下Flutter的启动流程,作为记录~
记一次es查询优化
ELK算是现在比较火的一个技术栈了,这段时间接了一个需求,需要在每天亿级别的数据中进行查询,其中包含了聚合等操作,一阵狂码虽然需求实现了,但是性能比较差,查询一次可能需要5-6秒的时间,最为有追求的程序员,这样的效率有些不能接受,于是想了一些办法优化,下面记录一下优化的过程。