如何自己部署autoscaler实现节点的自动扩缩容（一）：本地debug运行autoscaler

先了解几个google cloud的概念：

gcp：是google cloud platform的缩写，是google云平台。
gke: 是google kubernetes engine的缩写，是google云提供的kubernetes engine产品，用于创建部署kubernetes集群。
gce：是google compute engine的缩写，是google云提供的虚拟机计算资源产品，gke使用的计算资源Node就来自gce。

背景

在google cloud上使用gke集群，gke已经集成autoscaler，通过在控制台创建节点池点击开启自动扩缩容就可以，那么为什么还要自己部署呢？

目前我们在做云原生项目的过程中发现以下问题：

自定义的调度器无法触发node扩容，原因是autoscaler在扩容之前，会调用一遍默认调度器的过滤插件，如果默认调度器的过滤插件选不出node才会真的扩容。但我们使用自己的调度器，而gke不提供配置支持让autoscaler使用我们自定义的过滤插件。
gke提供的节点扩容，在缩容方面，耗时太长，总耗时需要11分钟，开源的autoscaler支持通过scale-down-unneeded-time配置将时间减少到1分钟，同样gke上没有一个地方可以配置。

总结就是，gke开放的autoscaler能力太过简单，并不能满足我们的需求。

本地Debug运行autoscaler

不管创建gke集群的时候，以及创建节点池的时候，有没有开启自动扩缩功能，gke都会部署autoscaler。autoscaler应该是部署在控制面的，没在集群中，看不到相关的pod。但是选举用的leases资源和状态配置文件都在集群中。因此自动部署autoscaler需要修改代码中leases的资源名称，以及配置不同的启动参数status-config-map-name，这样才能运行起来。

main方法中修改leases资源名称：

func defaultLeaderElectionConfiguration() componentbaseconfig.LeaderElectionConfiguration {
    return componentbaseconfig.LeaderElectionConfiguration{
       LeaderElect:   false,
       LeaseDuration: metav1.Duration{Duration: defaultLeaseDuration},
       RenewDeadline: metav1.Duration{Duration: defaultRenewDeadline},
       RetryPeriod:   metav1.Duration{Duration: defaultRetryPeriod},
       ResourceLock:  resourcelock.LeasesResourceLock,
       ResourceName:  "cluster-autoscaler-wujiuye",
    }
}

最少启动参数，要运行起来以下参数是必须的：

--kubeconfig=/Users/wujiuye/.kube/gcp_autoscaler_cluster
--cloud-config=/Users/wujiuye/cloud_native/autoscaler/cluster-autoscaler/cloudprovider/gce/testdata/gce.conf
--status-config-map-name=cluster-autoscaler-status-wujiuye
--nodes=0:3:https://www.googleapis.com/compute/projects/wujiuye-410808/zones/us-central1-c/instanceGroups/gke-autoscaler-cluster-test-group-9cb4eb39-grp

kubeconfig：本地kubeconfig文件（仅本地测试用，部署到集群中后不需要）。
cloud-config：gce.conf文件路径。
status-config-map-name：存储autoscaler扩缩容状态的ConfigMap。
nodes：节点池，格式为“min节点数:max节点数:url”，url的group不是gke看到的节点池的名称，而是对应gce的实例组的名称。

还有一个环境变量：

GOOGLE_APPLICATION_CREDENTIALS=/Users/wujiuye/cloud_native/wujiuye-410808-070a1c193e73.json

GOOGLE_APPLICATION_CREDENTIALS环境变量用于配置密钥文件的路径，这相当于使用AWS或者Aliyun等平台需要配置的ACCESS_KEY_ID、SECRET_ACCESS_KEY。

其中的gce.conf配置文件是用于配置project-id（项目id）和local-zone（区域）的，内容如下：

[global]
project-id=wujiuye-410808
local-zone=us-central1-c

做完以上操作autoscaler就可以本地debug运行起来了。

编写验证扩容案例，使用默认调度器。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: go-web-demo
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: go-web-demo
  template:
    metadata:
      name: go-web-demo
      namespace: default
      labels:
        app: go-web-demo 
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: scheduler.wujiuye.com/node-class
                operator: In
                values:
                - user-server 
      containers:
        - name: go-web-demo
          image: us-central1-docker.pkg.dev/wujiuye-410808/web-demo:v1.0.0
          imagePullPolicy: Always
          resources:
            limits:
              cpu: 500m
              memory: 1024Mi
            requests:
              cpu: 500m
              memory: 1024Mi
      restartPolicy: Always
      terminationGracePeriodSeconds: 30

Demo 通过配置节点亲和性，让pod能够调度到动态扩容的节点池上，从而触发扩容验证。

第一次扩容失败，原因是节点池没加标签。

给节点池添加标签：

截屏2024-05-06 10.22.14

加完标签后，自动扩容成功：

截屏2024-05-06 10.22.25

并且autoscaler控制台会输出扩容日记。

截屏2024-05-06 10.36.19

其中的错误日志应该是创建节点过程中发生的，实际节点确实扩容出来了。使用gce平台，autoscaler创建出来的节点，node.Spec.ProviderId的格式是“gce://<project-id>/<zone>/<name>”，通过查看Node资源，确认格式没有错误，而且后续也没再报错。

node-provider_id

如何自己部署autoscaler实现节点的自动扩缩容（一）：本地debug运行autoscaler

背景

本地Debug运行autoscaler

文章推荐