Elasticsearch集群管理：节点角色、健康监控与备份恢复

一、节点角色详解

Elasticsearch集群中的节点可以承担不同角色，合理配置节点角色是集群稳定运行的基础。

1. 主节点(Master Node)

主节点负责集群层面的管理操作，如创建/删除索引、跟踪节点状态、决定分片分配等。

# elasticsearch.yml 配置
node.master: true
node.data: false
node.ingest: false

实践建议：

生产环境至少配置3个专用主节点确保高可用
主节点不应承担数据或协调职责以降低负载
使用cluster.max_voting_config_exclusions限制主节点排除数量

2. 数据节点(Data Node)

数据节点存储索引数据并执行数据相关操作（CRUD、搜索、聚合等）。

node.master: false 
node.data: true
node.ingest: false

实践建议：

数据节点需要更多CPU、内存和磁盘资源
根据数据量合理规划分片数和副本数
监控磁盘使用率避免触发只读模式

3. 协调节点(Coordinating Node)

协调节点接收客户端请求，将请求路由到合适节点并汇总结果。

node.master: false
node.data: false 
node.ingest: false

实践建议：

可作为负载均衡器减轻数据节点压力
适合处理复杂搜索请求的预处理
需要足够内存处理聚合结果

4. 摄取节点(Ingest Node)

摄取节点在索引前对文档执行预处理管道。

node.master: false
node.data: false
node.ingest: true
pipeline.default: my_pipeline

实践建议：

对日志类数据特别有用（如解析时间戳、提取字段）
可创建复杂管道组合多个处理器
监控处理器性能避免成为瓶颈

5. 机器学习节点(Machine Learning Node)

运行机器学习任务进行异常检测或数据分析。

node.master: false
node.data: false
node.ml: true

实践建议：

需要安装X-Pack插件
分配足够内存（至少4GB）
监控作业执行时间和资源消耗

二、集群健康管理

1. 健康状态监控

GET /_cluster/health
{
  "cluster_name": "my-cluster",
  "status": "green",
  "timed_out": false,
  "number_of_nodes": 5,
  "number_of_data_nodes": 3,
  "active_primary_shards": 10,
  "active_shards": 20,
  "relocating_shards": 0,
  "initializing_shards": 0,
  "unassigned_shards": 0,
  "delayed_unassigned_shards": 0,
  "number_of_pending_tasks": 0,
  "number_of_in_flight_fetch": 0,
  "task_max_waiting_in_queue_millis": 0,
  "active_shards_percent_as_number": 100.0
}

状态解释：

Green：所有主分片和副本分片都正常
Yellow：所有主分片正常，部分副本未分配
Red：有主分片未分配，数据可能丢失

2. 分片分配控制

PUT /_cluster/settings
{
  "persistent": {
    "cluster.routing.allocation.enable": "all",
    "cluster.routing.allocation.total_shards_per_node": 3,
    "cluster.routing.rebalance.enable": "all"
  }
}

实践建议：

使用_cluster/allocation/explain诊断未分配分片
设置total_shards_per_node避免节点过载
对热索引使用分片分配过滤

3. 集群再平衡策略

调优参数：

cluster.routing.rebalance.enable: none/primaries/replicas/all
cluster.routing.allocation.balance.shard: 0.45f
cluster.routing.allocation.balance.index: 0.55f

三、备份与恢复方案

1. 快照(Snapshot)机制

PUT /_snapshot/my_backup
{
  "type": "fs",
  "settings": {
    "location": "/mnt/backups/elasticsearch",
    "compress": true
  }
}

PUT /_snapshot/my_backup/snapshot_1?wait_for_completion=true
{
  "indices": "index_1,index_2",
  "ignore_unavailable": true,
  "include_global_state": false
}

备份策略：

定期全量备份+增量备份
验证快照完整性GET /_snapshot/my_backup/snapshot_1/_status
跨可用区存储快照

2. 恢复操作

POST /_snapshot/my_backup/snapshot_1/_restore
{
  "indices": "index_1",
  "rename_pattern": "index_(.+)",
  "rename_replacement": "restored_index_$1",
  "include_aliases": false
}

恢复模式：

完整恢复：重建整个索引
部分恢复：选择特定索引或分片
时间点恢复：结合translog（需企业版）

3. 跨集群复制(CCR)

PUT /_ccr/follow/follower_index
{
  "remote_cluster": "remote_cluster",
  "leader_index": "leader_index",
  "max_read_request_operation_count": 5120,
  "max_outstanding_read_requests": 12
}

适用场景：

灾备集群维护
地理分布式数据访问
蓝绿部署升级

四、最佳实践总结

节点规划：
- 中小集群：3主节点+多角色数据节点
- 大型集群：专用主节点+协调节点+数据节点

健康监控：

# 监控关键指标
watch -n 5 'curl -s "localhost:9200/_cluster/health?pretty"'

备份策略：
- 每日增量备份+每周全量备份
- 快照保留策略（保留最近30天）
故障恢复检查清单：
- 检查磁盘空间GET /_cat/allocation?v
- 查看未分配分片原因GET /_cluster/allocation/explain
- 检查节点加入日志/var/log/elasticsearch/my-cluster.log

通过合理配置节点角色、持续监控集群健康状态以及建立可靠的备份恢复机制，可以确保Elasticsearch集群的稳定性和数据安全性。

Elasticsearch集群管理：节点角色与健康监控指南

Elasticsearch集群管理：节点角色、健康监控与备份恢复

一、节点角色详解

1. 主节点(Master Node)

2. 数据节点(Data Node)

3. 协调节点(Coordinating Node)

4. 摄取节点(Ingest Node)

5. 机器学习节点(Machine Learning Node)

二、集群健康管理

1. 健康状态监控

2. 分片分配控制

3. 集群再平衡策略

三、备份与恢复方案

1. 快照(Snapshot)机制

2. 恢复操作

3. 跨集群复制(CCR)

四、最佳实践总结

添加新评论

文章目录