云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

全站加速_bgp服务器租用_哪家好

小七 141 0

Databricks Runtime 5.3ml现已正式提供

作为Databricks Runtime 5.3 ML发行版的一部分,我们很高兴宣布Databricks Runtime for Machine Learning的通用性(GA)。Databricks Runtime ML构建在Databricks Runtime之上,是在Databricks中开发ML/DL应用程序的优化运行时。它提供与流行的ML/DL框架的本机集成,如scikit learn、XGBoost、TensorFlow、Pythorch、Keras、Horovod等。除了预先配置这些流行的框架之外,DBR ML还使这些框架更易于使用、更可靠、更具性能。自从我们在2018年6月的preview中引入了Databricks Runtime for Machine Learning以来,无论是总工作负载还是用户数量,我们都见证了指数级的采用。在过去的十个月中,近1000个组织试用了Databricks运行时ML预览版本。为了满足快速增长的需求,我们继续改进我们的集成和测试,以达到在Databricks Runtime ML中更新和添加库的强劲节奏。此外,Databricks还提供了优化的特性,以改善开发人员使用这些框架的体验。来自客户的积极反馈使我们得以使Databricks Runtime for Machine Learning(GA)普遍可用。Databricks Runtime ML现在可用于所有Databricks产品:Azure数据库AWS云GPU群集CPU集群首先,在Databricks中创建新集群时,只需从下拉列表中选择Databricks Runtime 5.3 ML:Databricks运行时在机器学习中的优势用于机器学习的Databricks运行时关注三个关键领域:可用性、可靠性和性能。易用性"Databricks Runtime ML中的分层库"(见下文)中标识的所有库都是在Databricks Runtime ML中预先配置的。您可以立即开始开发机器学习应用程序,而无需配置环境本身。在Databricks Runtime 5.0 ML版本中,我们引入了HorovodRunner,这使得使用分布式深度学习框架Horovod变得更加容易。Horovod的一个关键挑战是可用性,因为它要求您跨节点共享代码和库,配置SSH,执行复杂的MPI命令,等等。HorovodRunner通过提供一个简单的API使您能够轻松地利用Horovod的优点,从而抽象出所有这些复杂的问题。只需几行代码更改,就可以轻松地将单节点深度学习培训代码迁移到Databricks集群中运行。许多ML库是为单节点用例开发的。我们一直在评估流行的ML库,并寻找使它们更易于在分布式系统中运行的方法。例如,我们目前正在研究一个分布式超参数调优特性。敬请期待。可靠性机器学习是一个快速发展的空间,我们希望在Databricks运行时为机器学习提供最新和最好的工具。Databricks运行时ML中每个预先配置的ML库都会定期发布新版本。为了稳定我们的环境,Databricks engineering每天对Databricks运行时ML进行集成测试,并在集成或更新现有库之前对所有新库进行压力测试。自从十个月前Databricks运行时ML Beta版发布以来,我们继续扩展我们的测试套件,并吸收了来自近1000个组织的反馈,以使ML工作流平稳运行。我们在Databricks Runtime ML中采取了一种集中的方法来维护和更新库。根据客户需求和市场趋势,我们确定了一系列库为"顶层"库。对于这些"顶级"库,Databricks计划进行更快的更新并提供高级支持。请参阅下面的"Databricks Runtime ML中的分层库"部分中的详细信息。有了健壮的测试和集成,我们有信心在未来的Databricks运行时ML版本中定期添加和更新流行的ML库。最后,2019年Databricks运行时ML的一个主要计划是允许您定制ML环境。我们正在研究解决方案,使您能够轻松地挑选出一组合适的ML库来包含在Databricks运行时ML中。一个更轻的环境可以进一步提高稳定性。请继续收看。性能Databricks运行时ML除了几个库的"现成"开源版本之外,还包括性能改进。在Databricks Runtime 5.0 ML版本中,我们对apachespark MLlib logistic回归和树分类器进行了改进。在针对ML的Databricks运行时中运行时,我们观察到,与apachespark 2.4.0相比,Spark性能测试的速度提高了约40%。Databricks Runtime for ML中的GraphFrames库还包含一个优化的实现。从5.0ml开始,Databricks运行时ML中的graphframe运行速度快2-4倍,与开源graphframe相比,它支持更大的图形。如果底层节点和边缘表包含列统计信息,图形查询将利用基于Spark成本的优化(CBO)来确定连接顺序。这可能导致高达100倍的速度提高,这取决于工作负载和数据倾斜。改进后的性能只在Databricks中可用。您可以利用Databricks运行时和Databricks运行时for ML中改进的性能。我们还通过减小图像大小将集群启动时间缩短了25%。Databricks运行时ML中的分层库用于机器学习的Databricks运行时包括各种流行的ML库。这些库会定期更新以包含新特性和修复。流行库的一个子集被标记为顶层库。对于这些库,Databricks提供了更快的更新节奏,在每个运行时版本中更新到最新的上游包版本(排除依赖冲突)。Databricks还为顶级库提供高级支持、测试和嵌入式优化。Databricks Runtime 5.3 for Machine Learning包括以下库:顶级库:TensorFlow/张力板/特斯拉斯火花张力器流量连接器火把Horovod/HorovodRunner公司图形框架其他提供的库:煤油spark XG增压MLeap公司scikit学习熊猫Apache Spark的深度学习管道张量框架Azure Databricks中的默认优化保险丝安装Databricks运行时有一个用于DBFS的基本FUSE客户机,这是一个安装在Databricks集群上的本地分布式文件系统。这个特性非常流行,因为它允许本地访问远程存储。但是,当前的实现不允许开发分布式应用程序所需的足够快的数据访问。在Databricks运行时5.3中,azuredatabricks现在默认提供了一个优化的FUSE挂载。现在,您可以在训练和推理期间进行高性能的数据访问,而无需应用init脚本。存储在dbfs:/ml下并且可以在文件:/dbfs/ml中本地访问的数据现在由这个优化的FUSE安装支持。如果您运行的是Databricks 5.3之前的运行时版本,那么可以按照我们的说明安装一个高性能的第三方FUSE客户端。我们正在为AWS上的Databricks用户制作一个默认的优化的FUSE挂载,从而实现Azure和AWS平台上的功能对等。私有预览:MLlib MLflow集成Databricks Runtime 5.3ml支持使用PySpark MLlib调优算法CrossValidator和TrainValidationSplit自动记录MLflow运行。在5.3ml之前,如果要跟踪PySpark MLlib交叉验证或MLflow中的调优,则必须在Databricks笔记本中显式地调用MLflow API。使用MLflow MLlib集成,当您通过运行CrossValidator或TrainValidationSplit来优化超参数时,参数和评估指标将自动记录到MLflow中。然后,您可以查看调优如何影响MLflow中的评估指标。此功能为私人预览。请联系您的Databricks销售代表以了解如何启用它。其他库更新我们在Databricks Runtime 5.3 ML中更新了以下库:霍洛沃德0.16.0TensorBoardX 1.6版PyArrow 0.12.1(包括对二进制类型数据的支持)Databricks ML Model Export API已被弃用。Databricks建议改用MLeap,这样可以更广泛地覆盖MLlib模型类型阅读更多阅读更多关于Databricks Runtime 5.3ml for Azure Databricks和AWS的信息。在Databricks Runtime 5.3ml上,尝试为azuredatabricks和AWS提供分布式深入学习培训的示例笔记本。免费试用Databricks。今天就开始吧