1)3月20日前,将爱用所有业务由自建kubernetes集群迁移到聚石塔云应用容器平台;
2)迁移期间将环境迁移对商家的影响降到最低;
3)在云容器集群中做好与原有RDS,redis以及外部系统的服务对接。
从19年5月的“一路向北”后,爱用所有业务都运行在爱用自建的kubernetes 集群“洛书”上,到2020年三月,洛书上已有应用110多个,240+业务服务。自收 到聚石塔提供给我们的迁移聚石塔云应用容器平台建议后,爱用技术团队对聚石塔云应用的集群环境、软硬件各方面支持,做了全面的技术评估。最后一致认为 此次迁移是两个kubernetes集群之间应用与服务的迁移,ECS网络环境都不会 有太大的变动,如果集群运行稳定,可以达到客户无感知,服务无需维护的平滑 迁移。
阶段 |
时间 |
事项 |
准备期 |
2月12日-2月29日 |
基础镜像改造、服务与流量接入改造及发布系统改造 |
迁移期 |
3月2日-3月6日 |
将爱用商品业务迁移到云应用平台上并逐步切流量,直至服务稳定 |
3月6日-3月18日 |
将爱用剩余业务批量迁移到云应用容器平台上并逐步流量接入 |
1. 因为之前集群的积累,所以准备期在基础镜像和服务改造上并没有太大的困难,顺利完成镜像及发布的对接。
2. 迁移期前期我们先将爱用商品的服务迁入到云应用容器平台中,爱用商品的业务逻辑相对简单,所以在迁移及流量接入过程中未遇到太大的问题。
3. 在爱用商品运行稳定后,我们开始对爱用交易的大部分业务进行迁移,因为有爱用商品迁移的经验在,我们使用了脚本批量创建环境、部署配置等,在这批次迁移过程中遇到一些爱用商品并没有遇到的问题,如ECS在原来应用中未解除关联的问题、代码发布并没有发到指定路径的问题、容器内DNS解析失败等等问题,但在得到聚石塔云应用容器平台同学们的鼎力相助后,我们成功的将大部分业务功能迁入到云容器并逐步切入流量,对外提供服务。
4. 因为ECS和网络环境并没有变化,所以在云容器集群中rds,redis以及与其他外部系统对接都没有受到影响。
1. 3月17日爱用所有业务功能均迁移到聚石塔云应用容器平台上,并对外提供服务。
2. 迁移过程中,商家服务没有中断,没有维护,没有因为迁移造成重大的线上事故,实现了用户无感知。
1)同业务的发布速度提升2~3分钟;
2)API接口调用成功率稳定在99.9%,与迁移之前一致。
原因:ECS之前关联了别的应用,但是应用删掉了,但是关联并没有解除。
解决方法:聚石塔云应用负责保障的同学帮忙解除了与原应用关联,之后可以正常迁入。
原因:聚石塔云应用平台对yaml文件有严格的要求,原容器yaml内的一些配置格式不兼容。
解决方法:原集群的yaml需要按照格式修改。
原因:因为请求量太大,集群内coredns策略达到瓶颈。
解决方法:聚石塔云应用负责保障的同学重新配置了新的coredns策略后,问题解决。