RHCS集群工具的基本知识

1.什么是RHCS?

RHCS即 RedHat Cluster Suite ,中文意思即红帽集群套件
红帽集群套件(RedHat Cluter Suite, RHCS)是一套综合的软件组件,可以通过在部署时采用不同的配置
以满足对高可用性,负载均衡,可扩展性,文件共享和节约成本的需要
它主要应用于红帽企业linux6
它提供有如下两种不同类型的集群

负载均衡 IP 负载均衡,对一群服务器上收到的 IP 网络请求进行负载均衡

2.RHCS的特点

(1)最多支持128个节点(红帽企业Linux 3 和红帽企业Linux 4 支持 16 个节点)。
(2)可同时为多个应用提供高可用性。
(3)NFS/CIFS 故障切换:支持 Unix 和 Windows 环境下使用的高可用性文件。
(4)完全共享的存储子系统:所有集群成员都可以访问同一个存储子系统。
(5)综合数据完整性:使用最新的 I/O 屏障(barrier)技术,如可编程的嵌入式和外部电源开关装置(power switches)。
(6)服务故障切换:红帽集群套件可以确保及时发现硬件停止运行或故障的发生并自动恢复系统
同时,它还可以通过监控应用来确保应用的正确运行并在其发生故障时进行自动重启。

3.集群中的相关术语

(1)节点(node)
运行集群进程的一个独立主机,称为节点,节点是HA的核心组成部分,每个节点上运行着操作系统和集群软件服务
在集群中,节点有主次之分,分别称为主节点和备用/备份节点,每个节点拥有唯一的主机名,并且拥有属于自己的一组资源
例如,磁盘、文件系统、网络地址和应用服务等。主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。
(2)资源(resource)
资源是一个节点可以控制的实体,并且当节点发生故障时,这些资源能够被其它节点接管
(3)事件(event)
也就是集群中可能发生的事情,例如节点系统故障、网络连通故障、网卡故障、应用程序故障等
这些事件都会导致节点的资源发生转移,HA的测试也是基于这些事件来进行的。
(4)动作(action)
事件发生时HA的响应方式,动作是由shell脚步控制的
例如,当某个节点发生故障后,备份节点将通过事先设定好的执行脚本进行服务的关闭或启动。进而接管故障节点的资源
最上层是LVS负载均衡层
中间一层是Real Server层,就是服务节点部分

4.集群

集群是指一组相互独立的计算机,利用高速通信网络组成的一个较大的计算机服务系统,每个集群节点都是运行各自服务的独立服务器
这些服务器之间可以彼此通信,协同向用户提供应用程序,系统资源和数据,并以单一系统的模式加以管理
集群的优点:1.高性能 2.价格有效性 3.可伸缩性 4.高可用 5.透明性 6.可管理 7.可编程

5.RHCS 集群组成

(1)集群架构管理器
这是RHCS 集群的一个基础套件,提供您一个集群的基本功能,使各个节点组成的集群在一起工作
具体包含分布式集群管理器(CMAN),成员关系管理、锁管理(DLM)配置文件管理(CCS)、栅设备(FENCE)

(2)高可用服务管理器
提供节点服务监控和服务故障转移,当一个节点服务出现故障时,将服务转移到另一个健康的节点上

(3)集群配置管理工具
通过LUCI 来管理和配置RHCS集群,LUCI是一个基于web的集群配置方式,通过luci可以轻松的搭建一个功能强大的集群系统
节点主机可以使用ricci来和luci 管理段进行通信

(4)Linux virtual server
LVS 是一个开源的负载均衡软件,用LVS 可以将客户端的请求根据指定的负载策略和算法合理分配到各个节点,实现动态、智能的负载分担

(5)RedHatGS(global files ystem)
GFS 是Redhat公司开发的一款集群文件系统,目前最新的版本是GFS2,GFS文件系统允许多个服务同时读写一个磁盘分区
通过GFS可以实现数据的集中管理,免去了数据同步和拷贝的麻烦,但GFS不能独立存在,需要RHCS的底层组件支持

(6)cluster logical volume manager
CLuster 逻辑卷管理,及CLVM,是LVM的扩展,这种允许cluster 中的机器使用LVM来管理共享存储

(7)ISCSI
是一种在Internet协议上,特别是以太网上进行数据传输的标准,他是一种基于IPstorage理论的新型存储技术
RHCS可以通过ISCSI技术来导出和分配共享存储的使用

6.RHCS集群运行原理及功能介绍

(1)分布式集群管理器(CMAN)
它运行在各个节点上,为RHCS提供集群管理任务CMAN 用于管理集群成员、消息和通知
他通过监控每个节点的运行状态来了解节点成员之间的关系
当节点出现故障时,CMAN及时将这种改变通知底层,进而做出相应的调整

(2)锁管理(DLM)
表示一个分布式锁管理器,他是RHCS的一个底层基础构建,同时也为集群提供了一个公用的锁运行机制
在RHCS中,DLM运行在集群的每个节点上,GFS通过锁管理机制来同步访问数据系统元数据
CLVM通过锁管理其来同步更新数据到LVM卷和逻辑卷, DLM 不需要设定锁哪里服务器
它采用对等的锁管理方式,大大提高了处理性能,同时,DLM避免了当单个节点失败需要整体恢复的性能瓶颈
另外,DLM的请求都是本地的,不需要网络请求,因而请求会立即生效
最后,DLM通过分层机制,可以实现多个锁空间的并行管理模式

(3)配置文件管理(CCS)
Cluster Configuration System,简称CCS,主要用于集群配置文件管理和配置文件在节点之间的同步
有时候,luci管理界面可能由于网络等方面的以素并不是那么畅快,CCS就显得很必要了
CCS运行在集群的每个节点上,监控每个集群节点上的单一配置文件/etc/cluster/cluster.conf的状态
当这个文件发生任何变化时,都将此变化更新到集群中的每个节点,时刻保持每个节点的配置文件同步
例如,管理员在节点A上更新了集群配置文件,CCS发现A节点的配置文件发生变化后,马上将此变化传播到其它节点上去
rhcs的配置文件是cluster.conf,它是一个xml文件,具体包含集群名称、集群节点信息、集群资源和服务信息、fence设备等

(4)栅设备(FENCE)
FENCE设备是RHCS集群中必不可少的一个组成部分,通过FENCE设备可以避免因出现不可预知的情况而造成的“脑裂”现象
FENCE设备的出现,就是为了解决类似这些问题,Fence设备主要就是通过服务器或存储本身的硬件管理接口
或者外部电源管理设备,来对服务器或存储直接发出硬件管理指令,将服务器重启或关机,或者与网络断开连接

FENCE的工作原理是:当意外原因导致主机异常或者宕机时,备机会首先调用FENCE设备,然后通过FENCE设备将异常主机重启或者从网络隔离,当FENCE操作成功执行后,返回信息给备机,备机在接到FENCE成功的信息后,开始接管主机的服务和资源。这样通过FENCE设备,将异常节点占据的资源进行了释放,保证了资源和服务始终运行在一个节点上。

RHCS的FENCE设备可以分为两种:内部FENCE和外部FENCE,常用的内部FENCE有IBMRSAII卡,HP的iLO卡,还有IPMI的设备等,外部fence设备有UPS、SANSWITCH、NETWORKSWITCH等

(5)高可用服务管理器(rgmanager)
高可用性服务管理主要用来监督、启动和停止集群的应用、服务和资源
它提供了一种对集群服务的管理能力,当一个节点的服务失败时
高可用性集群服务管理进程可以将服务从这个失败节点转移到其它健康节点上来,并且这种服务转移能力是自动、透明的

RHCS通过rgmanager来管理集群服务,rgmanager运行在每个集群节点上,在服务器上对应的进程clurgmgrd。
在一个RHCS集群中,高可用性服务包含集群服务和集群资源两个方面,集群服务其实就是应用服务,例如apache、mysql等,
集群资源有很多种,例如一个IP地址、一个运行脚本、ext3/GFS文件系统等。

在RHCS集群中,高可用性服务是和一个失败转移域结合在一起的,所谓失败转移域是一个运行特定服务的集群节点的集合。
在失败转移域中,可以给每个节点设置相应的优先级,通过优先级的高低来决定节点失败时服务转移的先后顺序,
如果没有给节点指定优先级,那么集群高可用服务将在任意节点间转移。
因此,通过创建失败转移域不但可以设定服务在节点间转移的顺序,而且可以限制某个服务仅在失败转移域指定的节点内进行切换。

(6)集群配置管理工具(luci和ricci)
Conga是一种新的基于网络的集群配置工具,Conga是通过web方式来配置和管理集群节点的。
Conga有两部分组成,分别是luci和ricci,luci安装在一台独立的计算机上,用于配置和管理集群
ricci安装在每个集群节点上,Luci通过ricci和集群中的每个节点进行通信。
RHCS也提供了一些功能强大的集群命令行管理工具,常用的有clustat、cman_tool、ccs_tool、fence_tool、clusvcadm等
这些命令的用法将在下面讲述。

(7)RedhatGFS
GFS是RHCS为集群系统提供的一个存储解决方案,它允许集群多个节点在块级别上共享存储,
每个节点通过共享一个存储空间,保证了访问数据的一致性,更切实的说,
GFS是RHCS提供的一个集群文件系统,多个节点同时挂载一个文件系统分区,而文件系统数据不受破坏,这是单一的文件系统不能实现的。

代码交流 2021