评论

收藏

[NoSQL] 分布式NoSQL列存储数据库Hbase_MR集成Hbase:读写Hbase规则(九)

数据库 数据库 发布于:2021-07-01 09:55 | 阅读数:453 | 评论:0

  
  文章目录


  • 分布式NoSQL列存储数据库Hbase(九)


    • 知识点01:课程回顾
    • 知识点02:课程目标
    • 知识点03:MR集成Hbase:读Hbase规则
    • 知识点04:MR集成Hbase:读Hbase实现
    • 知识点05:MR集成Hbase:写Hbase规则
    • 知识点06:MR集成Hbase:写Hbase实现
    • 知识点07:BulkLoad的介绍
    • 知识点08:BulkLoad的实现
    • 知识点09:ImportTSV的使用
    • 知识点10:协处理器的介绍
    • 知识点11:协处理器的实现
    • 知识点12:Hbase优化:内存分配
    • 知识点13:Hbase优化:压缩机制
    • 知识点14:Hbase优化:布隆过滤
    • 知识点15:Hbase优化:列族属性
    • 知识点16:Hbase优化:其他优化
    • 附录一:Maven依赖


  分布式NoSQL列存储数据库Hbase(九)
知识点01:课程回顾

  •   简述Hbase中hbase:meta表的功能及存储内容

    •   功能:记录表的元数据信息
    •   内容

      •   rowkey:Hbase中每张表的每个Region的名称
      •   列

        •   Region名称
        •   Region范围:startKey,stopKey
        •   Region所在的RegionServer地址



  •   简述Hbase中数据写入流程

    •   step1:客户端连接ZK,获取meta表所在的地址,读取meta表数据
    •   step2:根据表名,获取当前要操作的表的所有region的信息
      region名称前缀:表名,startKey
    •   step3:根据Rowkey,判断具体操作哪个Region
    •   step4:获取对应Region的地址,请求对应的RegionServer
    •   step5:RegionServer接受请求,将数据写入Region,先写入WAL
    •   step6:根据列族来判断写入哪个Store中

      • 写入Store的memstore中


  •   简述Hbase中数据读取流程

    •   step1:客户端连接ZK,获取meta表所在的地址,读取meta表数据
    •   step2:根据表名,获取当前要操作的表的所有region的信息
      region名称前缀:表名,startKey
    •   step3:根据Rowkey,判断具体操作哪个Region
    •   step4:获取对应Region的地址,请求对应的RegionServer
    •   step5::RegionServer接受请求,从Region中读取数据

      •   先读memstore
      •   判断查询数据是否做了缓存,如果做了缓存:就读BlockCache
      •   最后读StoreFile

        • 如果开启了缓存,查询结果会放入BlockCache



  •   简述LSM模型的流程设计

    •   step1:不论什么数据操作:增删改,都只对内存进行操作

      • 删除和修改都是写入操作来代替的
      • 内存写入成功,就返回

        • 顺序读写内存
        • 顺序读写磁盘
        • 随机读写内存:memStore,BlockCache
        • 随机读写磁盘:StoreFile


    •   step2:数据写入内存,达到一定阈值,会将内存的数据写入磁盘
    •   step3:定期将所有小文件和并为大文件,加快检索的效率

  •   简述Hbase中的Flush、Compaction、Split的功能

    •   Flush:将memstore中的数据刷写到HDFS,变成StoreFile文件

      • 2.0之前

        • memstore:单个memstore达到128M,就会Flush
        • 所有的memstore总存储达到95%,就会触发整个RS的Flush

      • 2.0之后

        • 设置一个水位线:max(128 / 列族个数,16)
        • 高于水位线的memstore:就会flush
        • 低于水位线的memstore:不会flush
        • 所有都低于,都flush


    •   Compaction:用于将storefile文件进行合并,并且删除过期数据【被标记为更新和删除的数据】

      • minor compact:轻量级合并,将最早的几个小的storefile文件进行合并,不会删除过期数据
      • major compact:重量级合并,将所有的storefile合并为一个storefile,会删除过期数据

        • 默认每7天执行一次

      • 2.0版本开始:in-memory-compact:在memstore中将数据提前进行合并

        • none:不开启
        • basic:只合并,不删除过期数据
        • eager:合并并且删除过期数据
        • adapter:合并,根据数据量来判断是否自动删除过期数据


    •   Split:为了避免一个Region存储的数据量过大,导致负载过高,通过Split将一个region分为两个region,分摊负载

      •   0.94之前:判断region中存储的文件大小是否达到10GB
      •   2.0之前:根据Region个数,来计算划分的条件,达到4个以后,都是按照10GB来分
        min(10GB,256 * region个数3次方)
      •   2.0之后:根据region的个数做了判断

        • region的个数为1个:256M来划分
        • region的个数超过1个:10GB来划分




知识点02:课程目标

  • MapReduce读写Hbase

    • 重点:记住读写的规则

      • Spark中读写Hbase规则与MapReduce的规则是一模一样的

    • 应用:一般在工作中都是使用Spark来读写Hbase,如果是MapReduce可以使用Hive来实现

  • BulkLoad的实现【了解】

    • 问题:大量的数据并发往Hbase中写入,会导致内存和磁盘的利用率非常高,会影响其他程序的性能
    • Hbase中提供两种写入数据的方式

      • Put:直接写入memstore
      • BulkLoad:先将数据转换为storefile文件,将storefile文件直接放入Hbase表的目录中

    • 实现方式

      • 自己开发代码
      • 使用Hbase中的工具类来实现


  • 协处理的介绍【了解】

    • 什么是协处理器,分类
    • 怎么开发协处理器:自己开发协处理器,实现索引表与原表数据同步

  • Hbase中的优化方案【重点:记住】

    • 对于Hbase做了哪些性能的优化?
    • 内存优化
    • 压缩优化
    • 参数优化
    • ……


知识点03:MR集成Hbase:读Hbase规则


  •   目标

    • 掌握MapReduce中读取Hbase的开发规则

  •   分析

    • 读取由InputFormat决定

      • TextInputFormat:读取文件中的内容,每一行返回一个KV

        • K:行的偏移量:LongWritable
        • V:行的内容值:Text


    • TableInputFormat:负责实现读取Hbase的数据,将每个Rowkey的数据转换为一个KV对象

      • K:Rowkey的字节对象:ImmutableBytesWritable
      • V:Rowkey的数据内容:Result


  •   实现

    •   step1:调用工具类方法,初始化Input和Map

      • MapReduce中封装了工具类,实现读取Hbase数据
      TableMapReduceUtil.initTableMapperJob
      public static void initTableMapperJob(
          String table, 
          Scan scan,
          Class<? extends TableMapper> mapper,
          Class<?> outputKeyClass,
          Class<?> outputValueClass, 
          Job job
      );

    •   step2:构建Map类继承TableMapper类
      /**
       * Extends the base <code>Mapper</code> class to add the required input key
       * and value classes.
       *
       * @param <KEYOUT>  The type of the key.
       * @param <VALUEOUT>  The type of the value.
       * @see org.apache.hadoop.mapreduce.Mapper
       */
      @InterfaceAudience.Public
      public abstract class TableMapper<KEYOUT, VALUEOUT>
      extends Mapper<ImmutableBytesWritable, Result, KEYOUT, VALUEOUT> {
      }

  •   总结

    • MapReduce读取Hbase数据的API已经封装好了,只需要调用工具类实现即可


知识点04:MR集成Hbase:读Hbase实现


  •   目标

    • 实现从Hbase读取数据,将数据写入文件中

  •   分析

    • step1:使用TableInputFormat读取Hbase数据
    • step2:使用TextOutputFormat写入文件

  •   实现
    package bigdata.itcast.cn.hbase.mr;
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.conf.Configured;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.hbase.Cell;
    import org.apache.hadoop.hbase.CellUtil;
    import org.apache.hadoop.hbase.HBaseConfiguration;
    import org.apache.hadoop.hbase.client.Result;
    import org.apache.hadoop.hbase.client.Scan;
    import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
    import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
    import org.apache.hadoop.hbase.mapreduce.TableMapper;
    import org.apache.hadoop.hbase.util.Bytes;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
    import org.apache.hadoop.util.Tool;
    import org.apache.hadoop.util.ToolRunner;
    import java.io.IOException;
    /**
     * @ClassName ReadHbaseTable
     * @Description TODO 通过MapReduce读取Hbase表中的数据
     * @Create By   Frank
     */
    public class ReadHbaseTable extends Configured implements Tool {
      public int run(String[] args) throws Exception {
        //todo:1-创建
        Job job =  Job.getInstance(this.getConf(),"read");
        job.setJarByClass(ReadHbaseTable.class);
        //todo:2-配置
        //input&map
    //    job.setInputFormatClass(TextInputFormat.class);
    //    TextInputFormat.setInputPaths(job,new Path(""));
    //    job.setMapperClass(null);
    //    job.setMapOutputKeyClass(null);
    //    job.setMapOutputValueClass(null);
        //input&map
        /**
         * public static void initTableMapperJob(
         *     String table,                指定从哪张表读取
         *     Scan scan,                 读取Hbase数据使用的Scan对象,自定义过滤器
         *     Class<? extends TableMapper> mapper,     Mapper类
         *     Class<?> outputKeyClass,           Map输出的Key类型
         *     Class<?> outputValueClass,         Map输出的Value类型
         *     Job job                  当前的job
         *  )
         */
        //构建TableInputFormat用于读取Hbase的scan对象
        Scan scan = new Scan();//为了方便让你使用过滤器,提前过滤数据,再传递到MapReduce中,所以让你自定义一个scan对象
        //可以为scan设置过滤器,将过滤后的数据加载到MapReduce程序中
        TableMapReduceUtil.initTableMapperJob(
            "itcast:t1",
            scan,
            ReadHbaseMap.class,
            Text.class,
            Text.class,
            job
        );
        //reduce
        job.setNumReduceTasks(0);
        //output
        TextOutputFormat.setOutputPath(job,new Path("datas/output/hbase"));
        //todo:3-提交
        return job.waitForCompletion(true) ? 0:-1;
      }
      public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        //指定Hbase服务端地址
        conf.set("hbase.zookeeper.quorum", "node1:2181,node2:2181,node3:2181");
        int status = ToolRunner.run(conf, new ReadHbaseTable(), args);
        System.exit(status);
      }
      /**
       * TableMapper<KEYOUT, VALUEOUT>
       * extends Mapper<ImmutableBytesWritable, Result, KEYOUT, VALUEOUT>
       */
      public static class ReadHbaseMap extends TableMapper<Text, Text>{
        //rowkey
        Text outputKey = new Text();
        //每一列的数据
        Text outputValue = new Text();
    
        /**
         * 每个KV【一个Rowkey】调用一次map方法
         * @param key:rowkey
         * @param value:这个rowkey的数据
         * @param context
         * @throws IOException
         * @throws InterruptedException
         */
        @Override
        protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {
          //给key进行赋值
          String rowkey = Bytes.toString(key.get());
          this.outputKey.set(rowkey);
          //给value赋值
          for(Cell cell : value.rawCells()){
            //得到每一列的数据
            String family = Bytes.toString(CellUtil.cloneFamily(cell));
            String column = Bytes.toString(CellUtil.cloneQualifier(cell));
            String val  = Bytes.toString(CellUtil.cloneValue(cell));
            long ts = cell.getTimestamp();
            this.outputValue.set(family+"\t"+column+"\t"+val+"\t"+ts);
            //输出每一列的数据
            context.write(this.outputKey,this.outputValue);
          }
        }
      }
    }
  •   总结

    • 最终也是调用了Hbase Java API
    • 通过Scan来读取表的数据,返回到MapReduce程序汇总


知识点05:MR集成Hbase:写Hbase规则


  •   目标

    • 掌握MapReduce写入Hbase的开发规则

  •   分析

    •   输出由OutputFormat决定

      • TextOutputFormat:将KV输出写入文件中

    •   TableOutputFormat:负责实现将上一步的KV数据写入Hbase表中
      /**
       * Convert Map/Reduce output and write it to an HBase table. The KEY is ignored
       * while the output value <u>must</u> be either a {@link Put} or a
       * {@link Delete} instance.
       */
      @InterfaceAudience.Public
      public class TableOutputFormat<KEY> extends OutputFormat<KEY, Mutation>

      • 要求输出的Value类型必须为Mutation类型:Put / Delete
      • Key是什么类型,不重要,在写入过程中,Key会被丢弃


  •   实现

    •   step1:调用工具类初始化Reduce和Output

      • MapReduce中封装了工具类,实现读取Hbase数据
      TableMapReduceUtil.initTableReducerJob
      /**
         * Use this before submitting a TableReduce job. It will
         * appropriately set up the JobConf.
         *
         * @param table  The output table.
         * @param reducer  The reducer class to use.
         * @param job  The current job to adjust.
         * @throws IOException When determining the region count fails.
         */
        public static void initTableReducerJob(
          String table,
          Class<? extends TableReducer> reducer,  指定Reduce类,不用传递Key和Value类型,因为Key不重要,Value定死了
          Job job
        );

    •   step2:构建Reduce类继承TableReducer
      /**
       * Extends the basic <code>Reducer</code> class to add the required key and
       * value input/output classes. 
       *
       * @param <KEYIN>  The type of the input key.
       * @param <VALUEIN>  The type of the input value.
       * @param <KEYOUT>  The type of the output key.
       * @see org.apache.hadoop.mapreduce.Reducer
       */
      @InterfaceAudience.Public
      public abstract class TableReducer<KEYIN, VALUEIN, KEYOUT>
      extends Reducer<KEYIN, VALUEIN, KEYOUT, Mutation> {
      }

  •   总结

    • MapReduce写入Hbase数据的API已经封装好了,只需要调用工具类实现即可


知识点06:MR集成Hbase:写Hbase实现


  •   目标

    • 实现从文件读取数据,将数据写入Hbase中

  •   分析

    • step1:使用TextInputFormat读取文件中的数据
    • step2:构建Put对象,封装Rowkey以及列
    • step3:使用TableOutputFormat将数据写入Hbase表中

  •   实现

    •   Hbase中建表
      create 'itcast:mrwrite','info'
    •   实现
      package bigdata.itcast.cn.hbase.mr;
      import org.apache.hadoop.conf.Configuration;
      import org.apache.hadoop.conf.Configured;
      import org.apache.hadoop.fs.Path;
      import org.apache.hadoop.hbase.HBaseConfiguration;
      import org.apache.hadoop.hbase.client.Put;
      import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
      import org.apache.hadoop.hbase.mapreduce.TableReducer;
      import org.apache.hadoop.hbase.util.Bytes;
      import org.apache.hadoop.io.LongWritable;
      import org.apache.hadoop.io.Text;
      import org.apache.hadoop.mapreduce.Job;
      import org.apache.hadoop.mapreduce.Mapper;
      import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
      import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
      import org.apache.hadoop.util.Tool;
      import org.apache.hadoop.util.ToolRunner;
      import java.io.IOException;
      /**
       * @ClassName WriteHbaseTable
       * @Description TODO 通过MapReduce将数据写入Hbase
       * @Create By   Frank
       */
      public class WriteHbaseTable extends Configured implements Tool {
        public int run(String[] args) throws Exception {
          //todo:1-创建
          Job job =  Job.getInstance(this.getConf(),"write");
          job.setJarByClass(WriteHbaseTable.class);
          //todo:2-配置
          //input
          TextInputFormat.setInputPaths(job,new Path("datas/hbase/writeHbase.txt"));
          //map
          job.setMapperClass(WriteToHbaseMap.class);
          job.setMapOutputKeyClass(Text.class);
          job.setMapOutputValueClass(Put.class);
          //shuffle
          //reduce&output
          /**
           *  public static void initTableReducerJob(
           *   String table,                将数据写入Hbase的哪张表
           *   Class<? extends TableReducer> reducer,     reducer的类
           *   Job job)                   当前的job
           *
           *   以前输出的写法:
           *    job.setoutputKey:因为Key可以任意的,这里根本用不到
           *    job.setoutputValue:在TableReduce中将outputValue定死了,所以不用写
           *
           */
          TableMapReduceUtil.initTableReducerJob(
            "itcast:mrwrite",
            WriteToHbaseReduce.class,
            job
          );
          //output & reduce
      //    job.setReducerClass(null);
      //    job.setOutputKeyClass(null);
      //    job.setOutputValueClass(null);
      //    job.setOutputFormatClass(TextOutputFormat.class);
      //    TextOutputFormat.setOutputPath(job,new Path(""));
          //todo:3-提交
          return job.waitForCompletion(true) ? 0:-1;
        }
        public static void main(String[] args) throws Exception {
          Configuration conf = HBaseConfiguration.create();
          conf.set("hbase.zookeeper.quorum", "node1:2181,node2:2181,node3:2181");
          int status = ToolRunner.run(conf, new WriteHbaseTable(), args);
          System.exit(status);
        }
        /**
         * 读取文件,将文件中的内容,id作为key,其他的每一列作为一个Put对象
         */
        public static class WriteToHbaseMap extends Mapper<LongWritable,Text,Text, Put>{
          Text rowkey = new Text();
          @Override
          protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            //value:1liudehua18male
            String[] split = value.toString().split("\t");
            String row = split[0];
            String name = split[1];
            String age = split[2];
            String sex = split[3];
            //将id作为rowkey,放在key中输出
            this.rowkey.set(row);
            //构造输出的Value
            Put putname = new Put(Bytes.toBytes(row));
            putname.addColumn(Bytes.toBytes("info"),Bytes.toBytes("name"),Bytes.toBytes(name));
            context.write(rowkey,putname);
            Put putage = new Put(Bytes.toBytes(row));
            putage.addColumn(Bytes.toBytes("info"),Bytes.toBytes("age"),Bytes.toBytes(age));
            context.write(rowkey,putage);
            Put putsex = new Put(Bytes.toBytes(row));
            putsex.addColumn(Bytes.toBytes("info"),Bytes.toBytes("sex"),Bytes.toBytes(sex));
            context.write(rowkey,putsex);
          }
        }
        /**
         * public abstract class TableReducer<KEYIN, VALUEIN, KEYOUT>
         * extends Reducer<KEYIN, VALUEIN, KEYOUT, Mutation>
         *   最后Reduce输出的Value类型必须为Put类型,才能将数据写入Hbase
         */
        public static class WriteToHbaseReduce extends TableReducer<Text,Put,Text>{
          /**
           * 相同rowkey的所有Put都在一个迭代器中
           * @param key
           * @param values
           * @param context
           * @throws IOException
           * @throws InterruptedException
           */
          @Override
          protected void reduce(Text key, Iterable<Put> values, Context context) throws IOException, InterruptedException {
            //直接遍历每个put对象,输出即可
            for (Put value : values) {
              context.write(key,value);
            }
          }
        }
      }

  •   总结

    • 最终还是调用了Hbase Java API来实现的
    • 通过构建Table对象,执行所有的Put对象实现将数据写入Hbase


知识点07:BulkLoad的介绍


  •   目标

    • 了解BulkLoad的功能及应用场景

  •   分析

    • 问题:有一批大数据量的数据,要写入Hbase中,如果按照传统的方案来写入Hbase,必须先写入内存,然后内存溢写到HDFS,导致Hbase的内存负载和HDFS的磁盘负载过高,影响业务
    • 解决

      • 写入Hbase方式
      • 方式一:构建Put对象,先写内存
      • 方式二:BulkLoad,直接将数据变成StoreFile文件,放入Hbase对应的HDFS目录中

        • 数据不经过内存,读取数据时可以直接读取到



  •   实现

    • step1:先将要写入的数据转换为HFILE文件
    • step2:将HFILE文件加载到Hbase的表中【直接将文件放入了Hbase表对应的HDFS目录中】

  •   总结

    • 应用场景:Hbase提供BulkLoad来实现大数据量不经过内存直接写入Hbase

  •   特点

    • 优点:不经过内存,降低了内存和磁盘的IO吞吐
    • 缺点:性能上相对来说要慢一些,所有数据都不会在内存中被读取


知识点08:BulkLoad的实现


  •   目标

    • 实现BulkLoad方式加载数据到Hbase的表中

  •   分析

    • step1:先将要写入的数据转换为HFILE文件
    • step2:将HFILE文件加载到Hbase的表中【直接将文件放入了Hbase表对应的HDFS目录中】

  •   实现

    •   开发代码
    •   创建表
      create 'mrhbase','info'
    •   上传测试文件
      hdfs dfs -mkdir -p  /bulkload/input
      hdfs dfs -put writeHbase.txt /bulkload/input/
    •   上传jar包到Linux上
        [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dQV6Ylwx-1616741489711)(20210326_分布式NoSQL列存储数据库Hbase(九).assets/image-20210326103006352.png)]
    •   step1:转换为HFILE
      yarn jar bulkload.jar bigdata.itcast.cn.hbase.bulkload.TransHfileMR /bulkload/input/ /bulkload/output
    •   运行找不到Hbase的jar包,手动申明HADOOP的环境变量即可,只在当前窗口有效
      export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/export/server/hbase-2.1.0/lib/shaded-clients/hbase-shaded-mapreduce-2.1.0.jar:/export/server/hbase-2.1.0/lib/client-facing-thirdparty/audience-annotations-0.5.0.jar:/export/server/hbase-2.1.0/lib/client-facing-thirdparty/commons-logging-1.2.jar:/export/server/hbase-2.1.0/lib/client-facing-thirdparty/findbugs-annotations-1.3.9-1.jar:/export/server/hbase-2.1.0/lib/client-facing-thirdparty/htrace-core4-4.2.0-incubating.jar:/export/server/hbase-2.1.0/lib/client-facing-thirdparty/log4j-1.2.17.jar:/export/server/hbase-2.1.0/lib/client-facing-thirdparty/slf4j-api-1.7.25.jar
    •   step2:加载到Hbase表中
      yarn jar bulkload.jar bigdata.itcast.cn.hbase.bulkload.BulkLoadToHbase /bulkload/output

  •   总结

    • step1:先将数据转换为HFILE文件
    • step2:将HFILE加载到Hbase表中


知识点09:ImportTSV的使用


  •   目标

    • 了解ImportTSV工具的功能及使用
    • 字面意思:导入tsv格式的数据文件

      • tsv:以制表符分隔每一列的文件
      • csv:以逗号分隔每一列的文件


  •   分析

    • importtsv功能:将可以将任何一种结构化的文件导入Hbase的表中,【默认是使用Put方式来导入的】

      • 默认导入tsv格式的文件


  •   实现

    •   使用方式一:直接使用Put方式导入

      •   使用
        yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar importtsv 
        -Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf1:age,cf2:sex <你要写入哪张表> <读取文件的文件地址>
      •   手动指定分隔符
        '-Dimporttsv.separator=,',自己指定分隔符,默认分隔符为\t
      •   举例

        •   现在是数据
          [/list]  1 zhangsan 18 male
           2 lisi 20 female
          
          - 导入Hbase中
          ```shell
          yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar  \
          importtsv  \
          -Dimporttsv.columns=a,b,c \ --指定表中的每一列与文件中的每一列的对应关系
          <tablename> \--指定导入哪张表
          <inputdir>    \--指定导入哪个文件
          yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar  \
          importtsv  \
          -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:age,info:sex
          mrhbase \
          /bulkload/input


      •   使用方式二:结合BulkLoad的方式来实现

        •   step1:将普通文件转换为HFILE文件
          yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar importtsv 
          -Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf1:age,cf2:sex 
          -Dimporttsv.bulk.output=HFILE文件的存储地址
          <你要写入哪张表> <读取文件的文件地址>
          [/list]  yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar 
           importtsv 
           -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:age,info:sex 
           -Dimporttsv.bulk.output=/bulkload/output 
           mrhbase 
           /bulkload/input
          
          
          - step2:使用bulkload加载数据
            yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar completebulkload HFILE文件的地址 表的名称
          ```shell
          yarn jar /export/server/hbase-2.1.0/lib/hbase-mapreduce-2.1.0.jar completebulkload  /bulkload/output mrhbase


      •   总结

        •   importTSV:默认读取tsv格式

          • 可以将数据直接写入Hbase
          • 也可以将数据转换为HFILE文件

        •   注意:importTSV可以读取别的格式:如果要读取csv格式
          '-Dimporttsv.separator=,'


      知识点10:协处理器的介绍


      •   目标

        • 了解协处理器的功能、分类和应用场景

      •   分析

        • 什么是协处理器?

          • 协处理器指的是可以自定义开发一些功能集成到Hbase中
          • 类似于Hive中的UDF,当没有这个功能时,可以使用协处理器来自定义开发,让Hbase支持对应的功能


      •   实现

        • observer类:观察者类,类似于监听机制,MySQL中的触发器、Zookeeper中的监听

          • 实现:监听A,如果A触发了,就执行B
          • 监听对象

            • Region
            • Table
            • RegionServer
            • Master

          • 触发:监听A,如果A触发了,执行B

            • pre:阻塞A,先执行B,再执行A
            • post:A先执行,B在A执行完成之后再执行


        • endpoint类:终端者类,类似于MySQL中的存储过程,Java中的方法

          • 实现:固定一个代码逻辑,可以随时根据需求调用代码逻辑


      •   总结

        • Hbase通过协处理器来弥补一些用户自定义功能的实现,例如二级索引等,但开发难度较高,一般通过第三方工具来实现


      知识点11:协处理器的实现


      •   目标

        • 利用协处理器模拟实现二级索引同步原表与索引表数据

      •   分析

        • step1:开发协处理器,监听原表的put请求
        • step2:拦截原表put请求,获取put操作,获取rowkey以及值
        • step3:构建索引表的rowkey,往索引表写入数据
        • step4:释放原表请求,往原表写入数据

      •   实现

        •   创建两张表
          #rowkey:time_id
          create 'proc1','info'
          #rowkey:id_time
          create 'proc2','info'
        •   将开发好的协处理器jar包上传到hdfs上
          hdfs dfs -mkdir -p /coprocessor/jar
          mv bulkload.jar cop.jar
          hdfs dfs -put cop.jar /coprocessor/jar/
        •   添加协处理器到proc1中,用于监听proc1的操作
          disable 'proc1'
          alter 'proc1',METHOD => 'table_att','Coprocessor'=>'hdfs://node1:8020/coprocessor/jar/cop.jar|bigdata.itcast.cn.hbase.coprocessor.SyncCoprocessor|1001|'
          enable 'proc1'
        •   测试
          put 'proc1','20191211_001','info:name','zhangsan'
          scan 'proc1'
          scan 'proc2'
        •   卸载协处理器
          disable 'proc1'
          alter 'proc1',METHOD=>'table_att_unset',NAME=>'coprocessor$1'
          enable 'proc1'

      •   总结

        • 协处理器API过于繁琐,基于不同的需求需要开发多个协处理器共同实现,不建议使用
        • 建议使用Phoenix


      知识点12:Hbase优化:内存分配


      •   目标

        • 了解Hbase中内存的管理及分配

      •   分析

        • 写缓存:Memstore
        • 读缓存:BlockCache
        • 使用的RegionServer的JVM堆内存

          • 注意:所有使用JVM堆内存工具,都会有一个共同的问题:GC停顿
          • 合理设计垃圾回收的机制来回收内存,避免GC停顿


      •   实现

        •   MemStore:写缓存
          hbase.regionserver.global.memstore.size = 0.4

          • 如果存多了,Flush到HDFS

        •   BlockCache:读缓存
          hfile.block.cache.size = 0.4

          • LRU淘汰算法,将最近最少被使用的数据从缓存中剔除

        •   读多写少,降低MEMStore比例
        •   读少写多,降低BlockCache比例

      •   总结

        • 可以根据实际的工作场景的需求,调整内存比例分配,提高性能


      知识点13:Hbase优化:压缩机制


      •   目标

        • 了解Hbase中支持的压缩类型及配置实现

      •   分析

        •   Hbase的压缩源自于Hadoop对于压缩的支持
        •   检查Hadoop支持的压缩类型
          hadoop checknative
        •   需要将Hadoop的本地库配置到Hbase中

      •   实现

        •   关闭Hbase的服务
            配置Hbase的压缩本地库: lib/native/Linux-amd64-64
          cd /export/server/hbase-2.1.0/
          mkdir lib/native
        •   将Hadoop的压缩本地库创建一个软链接到Hbase的lib/native目录下
          ln -s /export/server/hadoop-2.7.5/lib/native /export/server/hbase-2.1.0/lib/native/Linux-amd64-64
        •   启动Hbase服务
          start-hbase.sh
          hbase shell
        •   创建表
          create 'testcompress',{NAME=>'cf1',COMPRESSION => 'SNAPPY'}
          put 'testcompress','001','cf1:name','laoda'

      •   总结

        • Hbase提供了多种压缩机制实现对于大量数据的压缩存储,提高性能
        • 压缩属于列族的属性:基于列族设计压缩


      知识点14:Hbase优化:布隆过滤


      •   目标

        • 了解布隆过滤器的功能及使用

      •   分析

        • 什么是布隆过滤器?

          • 是列族的一个属性,用于数据查询时对数据的过滤,类似于ORC文件中的布隆索引


      •   实现

        • 列族属性:BLOOMFILTER => NONE | ‘ROW’ | ROWCOL
        • NONE :不开启布隆过滤器
        • ROW:开启行级布隆过滤

          • 生成StoreFile文件时,会将这个文件中有哪些Rowkey的数据记录在文件的头部
          • 当读取StoreFile文件时,会从文件头部或者这个StoreFile中的所有rowkey,自动判断是否包含需要的rowkey,如果包含就读取这个文件,如果不包含就不读这个文件

        • ROWCOL:行列级布隆过滤

          • 生成StoreFile文件时,会将这个文件中有哪些Rowkey的以及对应的列族和列的信息数据记录在文件的头部
          • 当读取StoreFile文件时,会从文件头部或者这个StoreFile中的所有rowkey以及列的信息,自动判断是否包含需要的rowkey以及列,如果包含就读取这个文件,如果不包含就不读这个文件


      •   总结

        • Hbase通过布隆过滤器,在写入数据时,建立布隆索引,读取数据时,根据布隆索引加快数据的检索


      知识点15:Hbase优化:列族属性


      •   目标

        • 了解其他常用列族属性

      •   分析
        {NAME => 'cf1', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE => 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'false', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'SNAPPY', BLOCKCACHE => 'true', BLOCKSIZE => '65536'}
      •   实现

        • NAME:表示列族的名称
        • VERSIONS:最大版本数

          • 表示这个列族中的列最多可以存储几个版本的值

        • TTL:设置版本的自动过期时间,默认永不过期的,修改单位为秒

          • VERSIONS = 5
          • MIN_VERSIONS = 2
          • 一旦到达TTL时间,会自动清理过期的版本,只保留2个版本

        • MIN_VERSIONS:最小版本数
        • BLOCKCACHE:开启缓存,如果列族开启了缓存,这个列族从HDFS的查询就会放入缓存中

          • 默认就开启的
          • 工作中要将不是经常读的列族的缓存关闭
          • 使用LRU算法淘汰过期的数据

        • IN_MOMERY:最高缓存级别,meta表就是这个级别,一般情况下不建议开启

          • 不会被优先淘汰

        • BLOCKSIZE:存储文件的块的大小
        • 块越小,索引越多,查询越快,占用内存越多

          • 块越大,索引越少,查询相对较慢,占用内存越少
          • 一般不建议调整



      知识点16:Hbase优化:其他优化


      •   目标

        • 了解Linux、HDFS、Zookeeper、Hbase其他属性优化

      •   实现

        •   Linux系统优化

          •   开启文件系统的预读缓存可以提高读取速度
            sudo blockdev --setra 32768 /dev/sda
          •   最大限度使用物理内存
            sudo sysctl -w vm.swappiness=0
          •   调整文件及进程句柄数
            sudo vi /etc/security/limits.conf 修改打开文件数限制
            末尾添加:
            *        soft  nofile      1024000
            *        hard  nofile      1024000
            Hive       -     nofile      1024000
            hive       -     nproc       1024000 
            $ sudo vi /etc/security/limits.d/20-nproc.conf 修改用户打开进程数限制
            修改为:
            #*      soft  nproc   4096
            #root     soft  nproc   unlimited
            *      soft  nproc   40960
            root     soft  nproc   unlimited

        •   HDFS优化

          •   保证RPC调用会有较多的线程数
            dfs.namenode.handler.count = 20
            dfs.datanode.handler.count = 20
          •   文件块大小的调整
            dfs.blocksize = 256M
          •   文件句柄数
            dfs.datanode.max.transfer.threads = 4096
          •   超时时间
            dfs.image.transfer.timeout = 60000
          •   避免DN错误宕机
            dfs.datanode.failed.volumes.tolerated = 1

        •   Zookeeper优化

          •   优化Zookeeper会话超时时间
            zookeeper.session.timeout = 90000

        •   Hbase属性优化

          •   设置RPC监听数量
            hbase.regionserver.handler.count = 50
          •   优化hbase客户端缓存
            hbase.client.write.buffer = 2097152
          •   指定scan.next扫描HBase所获取的行数
            hbase.client.scanner.caching = 2147483647



      附录一:Maven依赖
      <repositories>
          <repository>
            <id>aliyun</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
          </repository>
        </repositories>
        <properties>
          <hadoop.version>2.7.3</hadoop.version>
          <hbase.version>2.1.2</hbase.version>
        </properties>
        <dependencies>
          <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-client</artifactId>
            <version>${hbase.version}</version>
          </dependency>
          <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-mapreduce</artifactId>
            <version>${hbase.version}</version>
          </dependency>
          <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
            <version>${hadoop.version}</version>
          </dependency>
          <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${hadoop.version}</version>
          </dependency>
          <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>${hadoop.version}</version>
          </dependency>
          <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-auth</artifactId>
            <version>${hadoop.version}</version>
          </dependency>
          <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>${hadoop.version}</version>
          </dependency>
          <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.6</version>
          </dependency>
        </dependencies>
        sion>


      org.apache.hadoop
      hadoop-mapreduce-client-jobclient
                                             h                         a                         d                         o                         o                         p                         .                         v                         e                         r                         s                         i                         o                         n                              <                      /                      v                      e                      r                      s                      i                      o                      n                      >                      <                      /                      d                      e                      p                      e                      n                      d                      e                      n                      c                      y                      >                      <                      d                      e                      p                      e                      n                      d                      e                      n                      c                      y                      >                      <                      g                      r                      o                      u                      p                      I                      d                      >                      o                      r                      g                      .                      a                      p                      a                      c                      h                      e                      .                      h                      a                      d                      o                      o                      p                      <                      /                      g                      r                      o                      u                      p                      I                      d                      >                      <                      a                      r                      t                      i                      f                      a                      c                      t                      I                      d                      >                      h                      a                      d                      o                      o                      p                      −                      c                      o                      m                      m                      o                      n                      <                      /                      a                      r                      t                      i                      f                      a                      c                      t                      I                      d                      >                      <                      v                      e                      r                      s                      i                      o                      n                      >                          {hadoop.version}</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>               hadoop.version</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop−common</artifactId><version>{hadoop.version}


      org.apache.hadoop
      hadoop-mapreduce-client-core
                                             h                         a                         d                         o                         o                         p                         .                         v                         e                         r                         s                         i                         o                         n                              <                      /                      v                      e                      r                      s                      i                      o                      n                      >                      <                      /                      d                      e                      p                      e                      n                      d                      e                      n                      c                      y                      >                      <                      d                      e                      p                      e                      n                      d                      e                      n                      c                      y                      >                      <                      g                      r                      o                      u                      p                      I                      d                      >                      o                      r                      g                      .                      a                      p                      a                      c                      h                      e                      .                      h                      a                      d                      o                      o                      p                      <                      /                      g                      r                      o                      u                      p                      I                      d                      >                      <                      a                      r                      t                      i                      f                      a                      c                      t                      I                      d                      >                      h                      a                      d                      o                      o                      p                      −                      a                      u                      t                      h                      <                      /                      a                      r                      t                      i                      f                      a                      c                      t                      I                      d                      >                      <                      v                      e                      r                      s                      i                      o                      n                      >                          {hadoop.version}</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-auth</artifactId> <version>               hadoop.version</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop−auth</artifactId><version>{hadoop.version}


      org.apache.hadoop
      hadoop-hdfs
      ${hadoop.version}


      commons-io
      commons-io
      2.6


        
关注下面的标签,发现更多相似文章