標籤: hadoop


  1. 基于hadoop的web日志分析

    前言

    企业中,web服务占有很大比重,同时web服务产生大量的日志,而这些日志中包含了很多有用信息。随着业务量的增长,日志的数量也会急剧增加,当日志只有GB单位时,在处理日志时还可以使用grep,sed,awk处理;当数据量上升到百GB以上时,shell脚本,以及python多线程的处理方式就显得有些力不从心。所以使用hadoop处理海量日志分析,是必然趋势。
    本次是构建一个web日志的kpi分析系统,通过获取相应key值的分析,获取潜在消息


  2. hadoop的安装与使用


  3. 初识hadoop

    Hadoop历史

    雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
    随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系统。