DaoCloud Enterprise 安裝伏位

=== 最常出現錯誤 ===

關鏈詞:Error: context deadline exceeded。 / client rate limiter Wait returned an error: context deadline exceeded

初步推論: 服務未在預設時間內啟動,可能是 API Server 負載高或組件本身有問題。導致 Helm 在等待 X 服務就緒時超時。


# 診斷

export KUBECONFIG=/root/.kube/config # 環境準備, 修正 kubectl 連接問題

sudo -E kubectl get pods -n kpanda-system | grep kpanda-bindings-syncer 輸出:0/2 Init:0/2 ## 查看Pod狀態(以kpanda-bindings-syncer服務為例)

sudo -E kubectl describe pod kpanda-bindings-syncer # ... 顯示:第一個初始化容器 check-redis-ready 正在執行無限循環,等待 Redis 服務就緒。

sudo -E kubectl get pods --all-namespaces # 顯示 mcamel-system 命名空間下的 Redis Pod 狀態異常:rfr-mcamel-common-redis-cluster-1 處於 ContainerCreating,其他 Pod 處於 1/2 Running。

sudo -E kubectl describe pod rfr-mcamel-common-redis-cluster-1 # 顯示事件:Warning FailedAttachVolume,訊息為 not found valid volume replica

--> 無法掛載持久化儲存卷(PVC),問題根源指向底層儲存系統 HwameiStor。

sudo -E kubectl get pvc -n mcamel-system | grep mcamel-common-redis-cluster # 檢查pvc

sudo -E kubectl get lvr -n hwameistor # 檢查 HwameiStor 儲存卷副本狀態, (LocalVolumeReplica)

sudo -E kubectl get lsn -n hwameistor # 檢查 HwameiStor 節點狀態, (LocalStorageNode)

檢查 PVC 和 LVR 狀態後,確認 PVC 已 Bound 且 LVR 存在並 Ready,但 Pod 仍掛載失敗。


根本原因:底層儲存系統 HwameiStor 的 CSI 驅動程式在處理儲存卷掛載時,由於瞬時狀態異常或同步問題,未能成功將 pvc-b6485851-72a4-4079-a168-63a7427ed2fb 掛載到 Pod 所在的節點,導致 Pod 長時間卡在 Pending 狀態。

連鎖反應:儲存故障 → Redis Pod 無法啟動 → Redis 集群不健康 → kpanda-bindings-syncer 無法通過初始化檢查 → DCE5 安裝超時失敗。

修復方法:由於儲存卷副本(LVR)本身是健康的,最有效的修復方法是強制 Kubernetes 重新嘗試掛載操作

sudo -E kubectl delete pod rfr-mcamel-common-redis-cluster-1 -n mcamel-system # 刪除卡住的 Pod,讓 StatefulSet 重新創建它

待 Redis Pod 恢復 2/2 Running 狀態後,重新執行 DCE5 安裝命令:  
sudo ./offline/dce5-installer cluster-create -c ./offline/sample/clusterConfig.yaml -m ./offline/sample/manifest-enterprise.yaml -j12+



=== 火種空間不足 ===

sudo lvextend -l +100%FREE /dev/ubuntu-vg/ubuntu-lv

sudo resize2fs /dev/ubuntu-vg/ubuntu-lv


=== 3台Master機需要rsync免密 ===

# 懶,所有動作直接免密

sudo bash -c 'echo "mx ALL=(ALL) NOPASSWD: ALL" > /etc/sudoers.d/mx'

sudo chmod 440 /etc/sudoers.d/mx

sudo -n whoami


=== 安裝命令 ===

sudo ./offline/dce5-installer cluster-create -c ./offline/sample/clusterConfig.yaml -m ./offline/sample/manifest-enterprise.yaml

留言