编码之痛:操作系统迁移后redis缓存无法命中

前几天一台内网服务器从ubuntu迁移到了centos,检查一切正常后就没有太在意。

今天有同事反馈迁移后的机器上的服务一个缓存总是无法获取,对比了下环境、JVM参数,尝试了war包替换等方式照样复现。
在有问题的机器上装了redis-cli让同事去看也是可以获取到的,一时没有了头绪。
打算请教其他同事,让有问题的同事把查询等发我一下,然后就看到了… …. key设置为了中文,一下子头大了… …

检查机器的locale都没什么问题:

$ env |grep LANG
LANG=en_US.UTF-8

$ locale
LANG=en_US.UTF-8

但用jinfo查看centos那台后发现被设置为了ANSI… …

file.encoding = ANSI_X3.4-1968

代码里一检查果然代码里没有设置charset使用了默认的,默认的获取规则:

public static Charset defaultCharset() {
    if (defaultCharset == null) {
        synchronized (Charset.class) {
            String csn = AccessController.doPrivileged(
                new GetPropertyAction("file.encoding"));
            Charset cs = lookup(csn);
            if (cs != null)
                defaultCharset = cs;
            else
                defaultCharset = forName("UTF-8");
        }
    }
    return defaultCharset;
}

加上file.encoding之后就可以了…

这也暴露了两个问题,一个是代码依赖了默认编码,另一个是服务器的JVM参数设置不全面,没覆盖常见的场景。
还有最重要的一点…凡是用中文做key的都应该被烧死!!!!!!!

感觉又虚度了光阴。


UPDATE 2018/07/09
迁了docker之后发现生成的文件也乱码了,变成了???…后来一看是LOCALE设置的问题
只需要加上(zh_CN用的image不支持..):

ENV LANG en_US.UTF-8  
ENV LANGUAGE en_US:en  
ENV LC_ALL en_US.UTF-8

就好了