如今,企业IT管理者的工作比以往任何时候都更具挑战性。他们必须管理不断增长的数据,并使用更小的团队利用不断发展的技术。其任务是将IT从成本中心转变为能够产生竞争优势的战略投资。
随着当今全球气候危机迫在眉睫,通过提高数据中心效率、减少能源消耗和电子废物来变得更加对环境负责,企业也面临着更大的压力。
【资料图】
如今的处境据估计,全球8000多个数据中心每年运行所需的电力占全球总发电量的3%。尽管服务器和存储技术在处理和管理大量数据方面已经变得非常高效,但数据增长速度超过了这些进步,推动了对数据处理能力的额外能源需求。
如今,数据中心大约55%的能源用于为服务器和存储等硬件系统供电,而超过40%的能源用于冷却这些和其他硬件资源。随着人工智能驱动的数据处理和深度学习变得更加普遍,对能源的需求预计将加速增长。
数据数字化和货币化的提高与生成式人工智能相结合,正在推动数据量和服务需求的新一轮爆炸式增长。这将显著增加对计算、存储和网络资源的需求,并进一步加剧降低能耗的挑战。
因此,IT管理人员必须优先考虑数据管理效率——使用最少的能源快速、安全地处理、存储和移动数据,同时不影响可扩展性或性能。事实上,这是推动未开发的数据中心效率的关键。
将讨论范围从容量和密度扩展到性能长期以来,数据中心管理者一直将占地面积视为提高效率和降低成本的关键因素。考虑到数据的爆炸性增长,提高容量利用率,无论是基于虚拟机的整合、高密度磁盘、重复数据删除还是压缩,将降低能耗,这是合乎逻辑的。
但是性能的作用呢?虽然IT组织可能已经考虑到更快的CPU、内存和磁盘在增加能耗方面的作用,但可能没有考虑现代数据管理解决方案在加速计算以降低能耗方面所发挥的作用。
事实上,加速计算的最新发展包括特定领域的架构,其中包括用于并行处理的GPU、用于超高速网络的数据处理单元(DPU)以及基于并行文件系统的存储。对于人工智能工作负载,这些架构比现有的企业基础架构要高效得多。以下是需要考虑的几个因素:
效率性能不足会降低效率。数据等待时间长、不必要的数据移动和高延迟会消耗能源,并减慢工作流程。现代数据管理系统利用并行处理和数据路径,来加速计算并优化应用性能。并行计算对存储系统提出了一些独特的要求,特别是以适当的速度并行向GPU提供大量数据的能力。这可以提高创建和运行人工智能模型的效率。
能源专为加速计算而设计的服务器和存储架构可提供更高的能效和线性横向扩展性能,从而大大减少数据中心部署的系统数量。
GPU的能源效率是人工智能的42倍,而并行文件系统每瓦驱动的数据量可提高10倍,两者相结合,只需传统技术的一小部分功耗和机架空间即可提供出色的结果系统。
电子垃圾电子垃圾是增长最快的环境问题之一,占全球城市固体垃圾的5%以上。随着世界日益电子化,这个数字肯定会增长。与此同时,全球回收率低迷至17%左右。随着越来越多的电子设备的生产,每个设备都有自己的碳足迹,以及空气、土壤和地下水污染,这对气候变化的影响可能是灾难性的。
向软件驱动、硬件加速架构的转变可以实现未来的技术增强,而无需硬件升级。这是延长技术寿命而不产生不必要浪费的重要一步。
完整的数据管理我们正处于众所周知的十字路口,数据中心效率既有恶化的机会,也有可能提高的机会。全球几乎每个组织的数据都将继续快速增长。
我们也正在进入一个人工智能的新时代,其依赖大型语言模型(LLM)来提高NLP准确性,如驱动ChatGPT等复杂工具。这些新的人工智能模型将包括训练、分析和推理,使用多达数万亿个参数,这给服务器和其他基础设施带来了更大的负担。
组织如何才能保持领先地位?专注于高效的数据管理和快速性能,包括IO吞吐量。能够优化GPU并行处理的存储解决方案对于加速人工智能、数据分析、模拟和可视化的计算将变得更加重要。正确的存储可以提高GPU性能和资源利用率,这将对数据中心的可持续性产生积极影响。更高的性能还可以实现每瓦特更多的操作,从而可以将能源效率提高3.5倍,并将AI数据中心TCO降低3倍以上。
利用智能监控工具,例如,扫描数据中心的数据中心基础设施管理(DCIM),不仅可以查明多余的用电量,还可以确定哪些地方的电力容量未得到充分利用。大多数数据中心资源严重过度配置,平均服务器利用率低得惊人,只有12%到18%。可以整合或重新部署幽灵服务器,以减少浪费的处理能力,并提高整体性能和效率。
最后,可能会担心人工智能工作负载加速计算在数据中心产生的热量。请注意,包括Equinix和Meta在内的多家知名组织已开始在80华氏度或更高温度下运行其数据中心,大约比行业平均水平高出10度。研究是否可以将数据中心温度提高几度,以大幅节省冷却成本。同时,探索蒸发冷却、储热器和潜在的外部空气等技术,在不损害环境的情况下冷却数据中心。
关键词: