Task #202
đóngMục Tiêu #144: Site CMC-Q9-HCM
Task #178: Update cluster Proxmox CMC-Q9
Update PVE từ 7.4.17 lên 8.0.4
100%
Mô tả
Mục tiêu: update cluster proxmox CMC-Q9 lên version mới nhát7
Yêu cầu: lên quy trình thực hiện, thứ tự các node, update đảm bảo không ảnh hưởng đến các dịch vụ đang chạy¶
Docs hướng dẫn update: https://projects.longvan.net/projects/lvss/wiki/11-quy-trinh-update-proxmox-cluster-1-so-loi-khi-upgrade-va-cach-troubleshoot
Thứ tự update: thực hiện giai đoạn 2 https://docs.google.com/spreadsheets/d/1cszHUbOfqyg-AFlZrpvYnCswYI8kZIwaXx7P8PQf8oQ/edit#gid=0¶
Lưu ý: trong quá trình update phải thực hiện update trên console
Quy trình Update
Migrate VM ra khỏi node trước khi thực hiện chạy update
Thực hiện Backup config
Backup File cp /etc/hosts /root/ cp /etc/network/interfaces /root/
Lưu lại các file config này bằng SCP
Thực hiện tắt HA service
Stop service pve-ha-lrm lần lượt trên các node trong cluster. Sau đó lần lượt stop service 1 trên các node trong cluster o systemctl status pve-ha-lrm o systemctl status pve-ha-crm
Remove VM ra khỏi HA
Maintenance Ceph storage
Cài lại OS:
- echo "deb http://download.proxmox.com/debian/ceph-quincy bookworm no-subscription" > /etc/apt/sources.list.d/ceph.list
- sed -i 's/bullseye/bookworm/g' /etc/apt/sources.list
- cat /etc/apt/sources.list
- cat /etc/apt/sources.list.d/pve-enterprise.list
- apt update
apt dist-upgrade
Kiểm tra cluster
Sau khi quá trình upgrade hoàn tất thì kiểm tra lại các service. pve-ha-lrm và pve-ha-crm có thể sẽ tự Start nên phải Stop ngay Các service ceph sẽ restart lại, nên phải đảm bảo service ceph-osd trên node đó đã Start, quá trình recovery hoàn tất thì mới thực hiện tiếp Kiểm tra service corosync đã Start, các node trong cluster đã joined hết Kiểm tra giao diện có hiện đầy đủ các nodes
Một số lưu ý
Trường hợp Ceph bị rớt phải restart lại service corosync tất cả node: systemctl restart corosync.service
Rớt net( không thể ping ra net). Cách xử lý: truy cập vào server thực hiện command sau: /etc/init.d/openvswitch-switch restart ifreload -a
Lỗi khi update các package. Biểu hiện, không thể ping tới node update, không nhận file /network/interface: dpkg --configre -a
Cập nhật bởi Tùng Nguyễn cách đây 12 tháng
- Kiểu vấn đề thay đổi từ Mục Tiêu tới Task
- Mô tả cập nhật (Sự khác nhau)
- Hết hạn gán cho 02-12-2024
- Trạng thái thay đổi từ New tới In Progress
- Phân công cho gán cho Thanh Tâm Nguyễn
- Mức ưu tiên thay đổi từ Normal tới High
- Bắt đầu gán cho 01-12-2023
- Tiến độ gán cho 0
- Thời gian ước lượng gán cho 2:00 h
Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 tháng
Migrate VM ra khỏi node trước khi thực hiện chạy update
Thực hiện Backup config
- Backup File cp /etc/hosts /root/ cp /etc/network/interfaces /root/
- Lưu lại các file config này bằng SCP Thực hiện tắt HA service
- Stop service pve-ha-lrm lần lượt trên các node trong cluster. Sau đó lần lượt stop service 1 trên các node trong cluster o systemctl status pve-ha-lrm o systemctl status pve-ha-crm
- Remove VM ra khỏi HA Maintenance Ceph storage Cài lại OS:
- echo "deb https://enterprise.proxmox.com/debian/pve bookworm pve-enterprise" > /etc/apt/sources.list.d/pve-enterprise.list
- sed -i -e 's/bullseye/bookworm/g' /etc/apt/sources.list.d/pve-install-repo.list
- echo "deb https://enterprise.proxmox.com/debian/ceph-quincy bookworm enterprise" > /etc/apt/sources.list.d/ceph.list
- echo "deb http://download.proxmox.com/debian/ceph-quincy bookworm no-subscription" > /etc/apt/sources.list.d/ceph.list
- sed -i 's/bullseye/bookworm/g' /etc/apt/sources.list
- cat /etc/apt/sources.list
- cat /etc/apt/sources.list.d/pve-enterprise.list
- apt update
- apt dist-upgrade Kiểm tra cluster Sau khi quá trình upgrade hoàn tất thì kiểm tra lại các service. pve-ha-lrm và pve-ha-crm có thể sẽ tự Start nên phải Stop ngay Các service ceph sẽ restart lại, nên phải đảm bảo service ceph-osd trên node đó đã Start, quá trình recovery hoàn tất thì mới thực hiện tiếp Kiểm tra service corosync đã Start, các node trong cluster đã joined hết Kiểm tra giao diện có hiện đầy đủ các nodes Một số lưu ý
- Trường hợp Ceph bị rớt phải restart lại service corosync tất cả node: systemctl restart corosync.service
- Rớt net( không thể ping ra net). Cách xử lý: truy cập vào server thực hiện command sau: /etc/init.d/openvswitch-switch restart ifreload -a
- Lỗi khi update các package. Biểu hiện, không thể ping tới node update, không nhận file /network/interface: dpkg --configre -a
Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 tháng
Thanh Tâm Nguyễn đã viết (#note-2):
Migrate VM ra khỏi node trước khi thực hiện chạy update
Thực hiện Backup config
- Backup File cp /etc/hosts /root/ cp /etc/network/interfaces /root/
- Lưu lại các file config này bằng SCP Thực hiện tắt HA service
- Stop service pve-ha-lrm lần lượt trên các node trong cluster. Sau đó lần lượt stop service 1 trên các node trong cluster o systemctl status pve-ha-lrm o systemctl status pve-ha-crm
- Remove VM ra khỏi HA Maintenance Ceph storage Cài lại OS:
- echo "deb https://enterprise.proxmox.com/debian/pve bookworm pve-enterprise" > /etc/apt/sources.list.d/pve-enterprise.list
- sed -i -e 's/bullseye/bookworm/g' /etc/apt/sources.list.d/pve-install-repo.list
- echo "deb https://enterprise.proxmox.com/debian/ceph-quincy bookworm enterprise" > /etc/apt/sources.list.d/ceph.list
- echo "deb http://download.proxmox.com/debian/ceph-quincy bookworm no-subscription" > /etc/apt/sources.list.d/ceph.list
- sed -i 's/bullseye/bookworm/g' /etc/apt/sources.list
- cat /etc/apt/sources.list
- cat /etc/apt/sources.list.d/pve-enterprise.list
- apt update
- apt dist-upgrade Kiểm tra cluster Sau khi quá trình upgrade hoàn tất thì kiểm tra lại các service. pve-ha-lrm và pve-ha-crm có thể sẽ tự Start nên phải Stop ngay Các service ceph sẽ restart lại, nên phải đảm bảo service ceph-osd trên node đó đã Start, quá trình recovery hoàn tất thì mới thực hiện tiếp Kiểm tra service corosync đã Start, các node trong cluster đã joined hết Kiểm tra giao diện có hiện đầy đủ các nodes
Một số lưu ý
- Trường hợp Ceph bị rớt phải restart lại service corosync tất cả node: systemctl restart corosync.service
- Rớt net( không thể ping ra net). Cách xử lý: truy cập vào server thực hiện command sau: /etc/init.d/openvswitch-switch restart ifreload -a
- Lỗi khi update các package. Biểu hiện, không thể ping tới node update, không nhận file /network/interface: dpkg --configre -a
Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 tháng
Thanh Tâm Nguyễn đã viết (#note-3):
Thanh Tâm Nguyễn đã viết (#note-2):
- Migrate VM ra khỏi node trước khi thực hiện chạy update
- Thực hiện Backup config
- Backup File cp /etc/hosts /root/ cp /etc/network/interfaces /root/
- Lưu lại các file config này bằng SCP Thực hiện tắt HA service
- Stop service pve-ha-lrm lần lượt trên các node trong cluster. Sau đó lần lượt stop service 1 trên các node trong cluster o systemctl status pve-ha-lrm o systemctl status pve-ha-crm
- Remove VM ra khỏi HA Maintenance Ceph storage Cài lại OS:
- echo "deb https://enterprise.proxmox.com/debian/pve bookworm pve-enterprise" > /etc/apt/sources.list.d/pve-enterprise.list
- sed -i -e 's/bullseye/bookworm/g' /etc/apt/sources.list.d/pve-install-repo.list
- echo "deb https://enterprise.proxmox.com/debian/ceph-quincy bookworm enterprise" > /etc/apt/sources.list.d/ceph.list
- echo "deb http://download.proxmox.com/debian/ceph-quincy bookworm no-subscription" > /etc/apt/sources.list.d/ceph.list
- sed -i 's/bullseye/bookworm/g' /etc/apt/sources.list
- cat /etc/apt/sources.list
- cat /etc/apt/sources.list.d/pve-enterprise.list
- apt update
- apt dist-upgrade Kiểm tra cluster Sau khi quá trình upgrade hoàn tất thì kiểm tra lại các service. pve-ha-lrm và pve-ha-crm có thể sẽ tự Start nên phải Stop ngay Các service ceph sẽ restart lại, nên phải đảm bảo service ceph-osd trên node đó đã Start, quá trình recovery hoàn tất thì mới thực hiện tiếp Kiểm tra service corosync đã Start, các node trong cluster đã joined hết Kiểm tra giao diện có hiện đầy đủ các nodes
Một số lưu ý
- Trường hợp Ceph bị rớt phải restart lại service corosync tất cả node: systemctl restart corosync.service
- Rớt net( không thể ping ra net). Cách xử lý: truy cập vào server thực hiện command sau: /etc/init.d/openvswitch-switch restart ifreload -a
- Lỗi khi update các package. Biểu hiện, không thể ping tới node update, không nhận file /network/interface: dpkg --configre -a
Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 tháng
Thanh Tâm Nguyễn đã viết (#note-4):
Thanh Tâm Nguyễn đã viết (#note-3):
Thanh Tâm Nguyễn đã viết (#note-2):
Migrate VM ra khỏi node trước khi thực hiện chạy update
Thực hiện Backup config
- Backup File cp /etc/hosts /root/ cp /etc/network/interfaces /root/
- Lưu lại các file config này bằng SCP
Thực hiện tắt HA service
- Stop service pve-ha-lrm lần lượt trên các node trong cluster. Sau đó lần lượt stop service 1 trên các node trong cluster o systemctl status pve-ha-lrm o systemctl status pve-ha-crm
- Remove VM ra khỏi HA
Maintenance Ceph storage
Cài lại OS:
- echo "deb https://enterprise.proxmox.com/debian/pve bookworm pve-enterprise" > /etc/apt/sources.list.d/pve-enterprise.list
- sed -i -e 's/bullseye/bookworm/g' /etc/apt/sources.list.d/pve-install-repo.list
- echo "deb https://enterprise.proxmox.com/debian/ceph-quincy bookworm enterprise" > /etc/apt/sources.list.d/ceph.list
- echo "deb http://download.proxmox.com/debian/ceph-quincy bookworm no-subscription" > /etc/apt/sources.list.d/ceph.list
- sed -i 's/bullseye/bookworm/g' /etc/apt/sources.list
- cat /etc/apt/sources.list
- cat /etc/apt/sources.list.d/pve-enterprise.list
- apt update
- apt dist-upgrade Kiểm tra cluster Sau khi quá trình upgrade hoàn tất thì kiểm tra lại các service. pve-ha-lrm và pve-ha-crm có thể sẽ tự Start nên phải Stop ngay Các service ceph sẽ restart lại, nên phải đảm bảo service ceph-osd trên node đó đã Start, quá trình recovery hoàn tất thì mới thực hiện tiếp Kiểm tra service corosync đã Start, các node trong cluster đã joined hết Kiểm tra giao diện có hiện đầy đủ các nodes
Một số lưu ý
- Trường hợp Ceph bị rớt phải restart lại service corosync tất cả node: systemctl restart corosync.service
- Rớt net( không thể ping ra net). Cách xử lý: truy cập vào server thực hiện command sau: /etc/init.d/openvswitch-switch restart ifreload -a
- Lỗi khi update các package. Biểu hiện, không thể ping tới node update, không nhận file /network/interface: dpkg --configre -a
Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 tháng
Thanh Tâm Nguyễn đã viết (#note-5):
Thanh Tâm Nguyễn đã viết (#note-4):
Thanh Tâm Nguyễn đã viết (#note-3):
Thanh Tâm Nguyễn đã viết (#note-2):
Migrate VM ra khỏi node trước khi thực hiện chạy update
Thực hiện Backup config
- Backup File cp /etc/hosts /root/ cp /etc/network/interfaces /root/
- Lưu lại các file config này bằng SCP
Thực hiện tắt HA service
- Stop service pve-ha-lrm lần lượt trên các node trong cluster. Sau đó lần lượt stop service 1 trên các node trong cluster o systemctl status pve-ha-lrm o systemctl status pve-ha-crm
- Remove VM ra khỏi HA
Maintenance Ceph storage
Cài lại OS:
- echo "deb https://enterprise.proxmox.com/debian/pve bookworm pve-enterprise" > /etc/apt/sources.list.d/pve-enterprise.list
- sed -i -e 's/bullseye/bookworm/g' /etc/apt/sources.list.d/pve-install-repo.list
- echo "deb https://enterprise.proxmox.com/debian/ceph-quincy bookworm enterprise" > /etc/apt/sources.list.d/ceph.list
- echo "deb http://download.proxmox.com/debian/ceph-quincy bookworm no-subscription" > /etc/apt/sources.list.d/ceph.list
- sed -i 's/bullseye/bookworm/g' /etc/apt/sources.list
- cat /etc/apt/sources.list
- cat /etc/apt/sources.list.d/pve-enterprise.list
- apt update
- apt dist-upgrade
Kiểm tra cluster
- Sau khi quá trình upgrade hoàn tất thì kiểm tra lại các service. pve-ha-lrm và pve-ha-crm có thể sẽ tự
- Start nên phải Stop ngay
- Các service ceph sẽ restart lại, nên phải đảm bảo service ceph-osd trên node đó đã Start, quá trình recovery hoàn tất thì mới thực hiện tiếp
- Kiểm tra service corosync đã Start, các node trong cluster đã joined hết
- Kiểm tra giao diện có hiện đầy đủ các nodes
Một số lưu ý
- Trường hợp Ceph bị rớt phải restart lại service corosync tất cả node: systemctl restart corosync.service
- Rớt net( không thể ping ra net). Cách xử lý: truy cập vào server thực hiện command sau: /etc/init.d/openvswitch-switch restart ifreload -a
- Lỗi khi update các package. Biểu hiện, không thể ping tới node update, không nhận file /network/interface: dpkg --configre -a
Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 tháng
Tùng Nguyễn đã viết:
Mục tiêu: update cluster proxmox CMC-Q9 lên version mới nhát7
Yêu cầu: lên quy trình thực hiện, thứ tự các node, update đảm bảo không ảnh hưởng đến các dịch vụ đang chạy¶
Docs hướng dẫn update: https://projects.longvan.net/projects/lvss/wiki/11-quy-trinh-update-proxmox-cluster-1-so-loi-khi-upgrade-va-cach-troubleshoot
Thứ tự update: thực hiện giai đoạn 2 https://docs.google.com/spreadsheets/d/1cszHUbOfqyg-AFlZrpvYnCswYI8kZIwaXx7P8PQf8oQ/edit#gid=0¶
Lưu ý: trong quá trình update phải thực hiện update trên console