云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名解析_数据库表同步_代金券

小七 141 0

如何在存储空间直接部署中通过聚合以太网配置RDMA

欢迎我们为Veeam撰稿人James Cook在我们的平台上首次亮相!如果您还想在Veeam博客上分享您的专业知识和知识,并为您带来新的东西(并通过这样做来赚钱),那么请了解更多详细信息并在计划页面上给我们留言。让我们来学技术吧!来了从传统的基础设施背景和怀旧的记忆干净分离的存储结构,我很清楚所面临的挑战向"超融合/融合"转型时的组织和运营团队世界。这个我所看到的最大的挑战是如何掌握这一领域的新技术可能更具挑战性合适的资源(传统网络与服务器工程师)在这个新合并的世界。RDMA是一种在这一领域有着巨大潜力的技术有助于提高各种实现的总体性能。 在这个博客我想谈谈我在聚合以太网(RocEv2)上的RDMA体验在Microsoft Storage Spaces中直接部署和替代选项对于RDMA over Ethernet,iWARP。什么是RDMA?远程直接内存访问(RDMA)允许从网卡上卸载并直接放入的网络数据包进入内存,绕过主机的CPU。这可以提供巨大的性能在网络上移动数据时的好处,通常用于性能计算或Hyper-V的超聚合/聚合部署存储空间直接(本博客的焦点)。在Hyper-V部署中,SMBDirect用于创建高吞吐量、低延迟的SMB连接到使用RDMA的远程存储,而不使用任何主机的CPU。有了这个SMB类固醇,很容易看出RDMA在利用SMB 3.0的解决方案。你怎么打开它?默认情况下,在Windows中,如果NIC是RDMA有能力,功能将被启用,简单!。。。而且很危险!使用PowerShell验证RDMA的状态:那就行了吗?也许…随着巨大的性能优势带来了巨大的不稳定性。RDMA需要一个稳定的、几乎无损的网络。本博客主要讲述我最近在一个客户端站点上使用RDMA over Converged Ethernet(RoCEv2)的经验,它使用UDP协议,因此对网络中断非常敏感。一点历史客户最近实施了几个具有存储空间的聚合Hyper-V使用HPE服务器直接群集硬件和HPE FlexFabric交换机。这变成了一场噩梦在生产之前,一切似乎都很好(即使是在测试中)环境负荷增加,稳定性显著下降当时,新的基础设施上运行着几个实时服务。每天群集共享卷脱机的情况,主机为蓝色/黑色屏蔽客户机虚拟机性能问题已成为常态。经历了很多在供应商现场协助下进行故障排除,找到了关键配置这是一个稳定的RDMA环境的关键。而不是权威指南,我将在这里强调一些发现。扰流板警报!我提到有两种选择在以太网、RoCev2和iWARP上实现RDMA。经验和本博客中的配置说明主要针对RoCev2实现(虽然在某些架构中可能适用于iWARP)。的配置简单地说,优先流控制和相关设置已经到位控制RDMA流量,以避免网络中断没有可从中恢复的内置机制(基于UDP)。我在另一个上面hand构建在TCP之上,获得了与拥塞感知相关的好处协议。长话短说,如果你是在微软的设计阶段直接基于存储空间的解决方案,我强烈建议您看看购买支持iWARP的网卡!你会节省很多时间强调!RDMA/RoCE/PFC/ETS的密钥服务器配置优先流量控制是必需的用于RoCE部署的配置,并且必须在所有节点上配置(存储/计算)以及数据路径中的交换机端口。PFC有效地标记相关流量(SMB,并允许数据流中的任何点在变得拥塞,触发暂停帧以减慢数据流。我们也可以在用于分配带宽的Windows Server数据中心桥接角色(DCBx)对交通类型的保留。在下面的配置示例中,我们是设置服务器级配置,配置支持RoCE的以太网具有相关设置的名为"以太网"的适配器。我们正在创建三个QoSS2D群集核心流量类型的策略-SMB,群集流量以及其他一切。我们正在用队列3标记SMB流量和第五个队列的集群流量。重要的是你要咨询你的交换机验证推荐队列的供应商文档或支持与这个例子不同。就我们而言,我们至今仍面临不确定性关于HPE FlexFabric的建议值!此外,我们为队列3(SMB)设置95%的带宽分配,为队列5(群集)设置1%的带宽分配,以确保在争用期间为这些流量类型提供优先级。配置示例#安装DCBx功能部件安装windowsfeature数据中心桥接#删除任何以前的配置删除NetQosTrafficClass删除NetQosPolicy-确认:$False#禁用DCBx自动协商,因为Microsoft不支持此功能设置NetQosDcbxSetting-愿意0获取NetAdapter"以太网"|设置NetQosDcbxSetting-愿意0#创建QoS策略并用相关优先级标记每种类型的流量新NetQosPolicy"SMB"-NetDirectPortMatchCondition 445-priorityvalue8021操作3新NetQosPolicy"默认"-默认-PriorityValue8021操作0新NetQosPolicy"Cluster"-Cluster-priorityvalue8021操作5#对特定优先级启用优先级流控制(PFC)。为其他人禁用禁用NetQosFlowControl 0,1,2,4,6,7启用NetQosFlowControl 3,5#在相关接口上启用QoS启用NetAdapterQos-接口别名"以太网"#启用NetQosFlowControl新NetQosTrafficClass"SMB"-优先级3-带宽百分比95-算法ETS新NetQosTrafficClass"群集"-优先级5-带宽百分比1-算法ETS网络配置PFC和ETS的配置因供应商而异,我建议您让交换机供应商的客户经理安排一些时间与具有超聚合部署经验的SME联系。下面显示了一个在HPE FlexFabric上启用队列3和队列5的优先级流控制的端口配置示例:优先流控制启用优先流量控制无下降dot1p 3,5stp边缘端口qos信任dot1pqos wrr be组spqos wrr af1组1字节计数95qos wrr af2组1字节计数1核查和监测验证您的节点正在使用RDMA的一个简单验证是从一个节点到另一个节点执行文件复制,然后运行Get smbmulticchannelconnection PowerShell命令,确保所有路径都显示为支持RDMA:此外,在执行文件复制时打开taskmgr,注意CPU和以太网的利用率应该保持不变不受影响,这是因为网络流量被直接卸载从网卡到内存,绕过操作系统!还有许多相关的性能计数器围绕这个主题,但我将重点介绍几个关键问题。全部可用Windows Server(2012+)将是RDMA活动计数器。监视这些在文件复制测试期间计数器,以确保RDMA流量显示在预期的NIC,注意RDMA失败的连接尝试/错误,可能是运输问题。您的网卡驱动程序还应附带PFC/QoS的额外计数器。如果没有,那就升级驱动程序或者在可能的地方安装这些功能。通过为相关QoS队列添加计数器,您可以验证通信量是否从一个节点发送,并在另一个节点上接收到。帮助故障排除的一个关键指标是发送/接收暂停帧和持续时间。预计会出现一些暂停帧,特别是在S2D集群中的节点维护期间(由于修复/重新平衡过程导致高流量),但如果您看到这些值一直快速上升,则可能存在配置或带宽限制问题。节点上有用的事件日志,它可以表明RDMA连接问题是Microsoft Windows SMBClient/连接日志。下面的错误很明显指示启用RDMA的节点之间存在连接问题:结论我希望以上信息能提供深入了解RDMA over Converged所需的最小配置以太网部署。我诚实地说,最近参与了部署多个集群,总共80多个节点…使用iWARP而不是RoCe!在超/融合环境中带宽NIC(10 Gb),可能仍需要上面的一些设置来避免在争用时中断iWARP流量,但在大多数情况下,TCP的内置机制将足够和网络配置(和空间相对而言,是最小的。有一些性能方面的原因可以让你想要使用RoCE,理论上它通过使用UDP提供较低的延迟,这减少了处理开销。我听说RoCe被用在底层Azure基础设施,但他们在网络方面拥有大量资源管理潜在不利影响的技能和资源配置错误的RoCE环境。有很多可以说的保留它简单!VN:F[1.9.22_1171]评级:5.0/5(9票投票)如何在存储空间直接部署中配置聚合以太网上的RDMA,基于9个评级,5.0/5