消息队列_微擎数据库字典_高性价比

小七 2019年10月25日 21:23 141 0

如何使用MLflow Search API在仪表板中显示模型度量

机器学习工程师和数据科学家经常训练模型来优化损失函数。通过梯度下降等优化方法，我们不断地改进损失，最终达到最小值。你有没有想过：作为一名数据科学家，我能优化自己的工作效率吗？或者，我可以直观地看到我的培训模型指标的进展情况吗？MLflow允许您跟踪培训运行，并为常见的度量比较提供开箱即用的可视化效果，但有时您可能希望提取MLflow标准可视化中未涵盖的其他细节。在这篇文章中，我们将向您展示如何使用MLflow跟踪您或您的团队在训练机器学习模型方面的进展。MLflow跟踪API使您的运行可搜索，并以方便的Pandas数据帧的形式返回结果。我们将利用此功能生成一个仪表板，显示对关键指标（如平均绝对误差（MAE））的改进，并向您展示如何测量每个实验和团队所有成员的运行次数。追踪表现最佳的训练跑步一些机器学习工程师和研究人员在一组电子表格中跟踪模型精度结果，用超参数和用于生成它们的训练集手动注释结果。随着时间的推移，随着团队的成长和实验运行次数的相应增加，手工记账可能会变得很麻烦。但是，当您使用MLflow跟踪API时，您在一个实验中的所有训练运行都会被记录下来。使用这个API，您就可以为任何实验生成一个pandas运行数据帧。例如，mlflow.search_运行（…）返回熊猫.DataFrame，可以在笔记本中显示，也可以作为熊猫系列.运行次数=mlflow.search_运行（实验编号=实验编号）跑步.head（十）有了这个程序化的界面，很容易回答诸如"迄今为止性能最好的模型是什么？"运行次数=mlflow.search_运行（experience_ids=实验_id，订购人=['度量.mae']，最大结果=1）跑步.loc[0]使用pandas DataFrame聚合和Databricks笔记本的显示功能，您可以直观地看到随着时间的推移，您的顶层精度指标的改进。这个例子跟踪了在过去两周内优化MAE的进展。最早开始时间=(日期时间。现在（）-时间增量（天=14））。strftime（"%Y-%m-%d"）recent_runs=跑步[runs.start_时间>=最早开始时间]近期跑步次数['Run Date']=最近_runs.start_时间.dt.地板（freq='D'）best_runs_per_day_idx=最近_运行.groupby(["运行日期"])['度量.mae'].idxmin（）best_runs=最近_跑步.loc[每天最佳跑步次数]显示（最佳跑步次数[['跑步日期'，'度量.mae']])扩展此示例，您可以跟踪任何用户在较长时间内启动的运行总数。运行次数=mlflow.search_运行（实验编号=实验编号）runs_2019=跑步[(runs.start_时间=‘2019-01-01’）]runs_2019['month']=runs_2019.start_时间、日期、月份名称()runs_2019['month_i']=runs_2019.start_时间、日期、月份runs_per_month=runs_2019.groupby(['month_i'，'month']).count（）[['run_id']].reset_index（'month'）跑步次数_月。重命名（{'run_id'：'运行次数'，axis='columns'，inplace=True）显示（每月运行次数）创建模型性能仪表板使用以上显示，您可以构建一个显示结果的多个方面的仪表板。这样的仪表盘，计划每天更新，在截止日期前或团队冲刺期间，作为共享显示很有用。超越手动训练模型跟踪如果不跟踪和测量运行和结果，机器学习建模和实验可能会变得混乱和容易出错，尤其是当结果在电子表格中、纸面上手动跟踪时，或者有时根本不跟踪。使用MLflow跟踪和搜索api，您可以轻松地搜索过去的培训运行，并构建仪表板，使您或您的团队更有效率，并提供模型指标的可视化进度。贡献：Max Allen是MLflow工程团队的工程实习生。在去年的实习期间，他实现了MLflow搜索API，我们在本博客中对此进行了演示。MLflow跟踪和搜索API入门准备好开始了还是自己试试？您可以在AWS或Azure上的一个可运行笔记本中看到本文中使用的示例。如果您是MLflow新手，请阅读最新MLflow 1.6的MLflow快速入门。对于生产用例，请阅读关于Databricks上的Managed MLflow。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3304.html