Fayson 在前面的文章《Hive表字段Comment中文乱码》中,先容了在Hive中如何办理表字段中文注释乱码的问题,为了完善上篇文档,本文整理Hive表所有与中文注释干系的属性项,包括表字段、分区、表名、视图中文乱码,同时包括对该问题的剖析。
测试环境1.CM和CDH版本为6.1.0
2.Hive的版本为2.1.1
3.集群已启用Kerberos
4.RedHat7.4
2.问题描述在Hive中创建有中文注释的表时,默认情形下无论是在beeline还是Hue中该注释显示都会是乱码。利用以下建表和查看语句:
CREATE TABLE test_comment (s1 string COMMENT \"大众测试字段\"大众,s2 string COMMENT \"大众测试字段2\"大众) COMMENT \"大众测试表名\"大众 partitioned BY (s3 string COMMENT \公众测试分区\公众);SHOW CREATE TABLE test_comment;
在beeline中查看如下:
Hue中显示一样,这里省略。
创建视图也是一样会涌现乱码问题:
create view testview as select \公众测试视图\公众 from student;show create table testview;select from testview;
3.办理办法这个问题是由于mysql中的Hive元数据库表默认创建字符编码为latin1,须要修正表中对应字段的字符类型
mysql –u root –puse metastore;#修正字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;#修正表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE varchar(40000) character set utf8;#修正分区参数,支持分区建用中文表示alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(40000) character set utf8;alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(40000) character set utf8;#修正表名注释,支持中文表示alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;#修正视图,支持视图中文ALTER TABLE TBLS modify COLUMN VIEW_EXPANDED_TEXT mediumtext CHARACTER SET utf8;ALTER TABLE TBLS modify COLUMN VIEW_ORIGINAL_TEXT mediumtext CHARACTER SET utf8;
把稳Hive元数据这个数据库应利用utf-8创建,如:create database metastore default character set utf8;
回到Hive中重新create一张表和视图,并查看
创造中文注释已经显斧正常。
再重新创建分区并查看:
创造分区的中文也显斧正常
注:在还未修正字符编码以前的创建的表,仍旧须要重新实行ALTER语句后才能正常显示,以是建议在Hive 表中还没有数据时就将字符集修正过来
4
问题剖析
针对该问题,Fayson 剖析是由于Hive自动建表时设置了表的字符编码。
在创建Hive元数据库设置的字符集是utf8,查看语句如下:
在添加Hive 组件时,建表语句是由CDH自动完成的,任意选择Hive 元数据库metastore 下的两个表查看,创造其默认的字符集编码是latin1,如下
这也就阐明了,虽然创建Hive元数据库的时设置字符编码为utf8,但依旧涌现中文乱码的问题。建议在Hive 中还为添加数据时,先去通过上面的方法办理中文乱码问题,避免后期数据多客岁夜量实行ALTER去修正。