百度云_阿里云发送短信_评分榜

小七 2019年10月25日 21:23 141 0

绕开“摩尔之墙”：Databricks首席执行官阿里·戈德西（Ali Ghodsi）努力让人工智能更容易进入《财富2000》

今天，一家知名的大公司人工智能和数据分析突破技术提供商Databricks宣布，它已经从Andreessen Horowitz领导的一批投资者那里筹集了1.4亿美元，其中包括电池风险投资公司（Battery Ventures）。"电池驱动"与Databricks联合创始人兼首席执行官阿里·戈德西（Ali Ghodsi）坐下来，讨论公司如何起步、如何实际帮助客户以及未来的计划。电池驱动：那我们何不先谈谈这家公司是如何起步的。核心技术源于伯克利的一个研究项目，对吗？这一切是怎么发生的？阿里·戈德西：是的。2009年前后，Databricks的所有联合创始人都在加州大学伯克利分校，我们都是学术研究人员。我们有一个重大的洞察力：我们意识到计算机不会再快了。我们碰到了一个叫做摩尔之墙的东西：摩尔定律不再适用。基本上，这意味着电脑不会再每18个月变快了。所以这意味着你不能再购买超级计算机来满足你的数据分析需求。有一台新电脑，它是云端的数据中心。我们认为这是一个绿色领域的机会，我们非常兴奋地追求它。我们需要弄清楚，我们现在如何使用云中的几十万台机器来处理所有这些数据并从中获得更多的见解，并使用机器学习和其他人工智能方法等技术对其进行预测。大约在2013年的四五年里，我们在加州大学伯克利分校（UCBerkeley）启动了一个名为"Spark"的研究项目，该项目后来成为ApacheSpark来解决这个问题。Spark有一些吸引力——我的意思是，对于一个学术项目来说，它取得了巨大的成功。但我们决定，如果我们想让这项技术真正起飞，如果企业和世界其他地方真的要采用它，就需要有一家公司来支持它。就在那时我们决定启动数据链。我们一共有6个人，我们在2013年夏天成立了这家公司。在伯克利工作之前你在做什么？AG：我在瑞典长大。我小时候就开始编程了。我想我是从七岁开始的。我去攻读了一个计算机科学学位，之后又获得了一个博士学位，我在瑞典大学获得了一个助理教授的职位。就在那时，我才有机会和伯克利的团队一起工作。一开始我说，我会去加州大学伯克利分校呆一年，然后再回到我在瑞典的教授职位。我在这里呆了一年，说，嘿，这真的很有趣。我们撞上了摩尔的墙，这是一个很好的机会，我这辈子再也不会有这样的机会了。所以让我再给它12个月。所以我又呆了一年。我说我应该多给一年的机会。我呆了三年。所以你知道这个故事的发展方向。PBB：所以有六位联合创始人，包括你，你再也没有回过瑞典。AG：是的。PBB：公司发展得有多快？AG：我们现在大约有220名员工，所以四年来增长很快。我认为，我们之所以发展迅速，部分原因在于我们的使命：在Databricks，我们真的希望简化这个大数据问题，并将人工智能引入《财富》2000年的其余部分。四年后，星火计划在全球拥有超过30万名meetup成员。从参与的人数来看，这是大数据领域最大的（开源）项目。Databricks本身有500多个客户。实际上，大约两年半前，我们推出了我们的产品，这是一款云端SaaS产品。所以在短时间内有相当多的客户。PBB：那么告诉我Databricks是如何帮助客户的。我听说有人说，你的技术最终使数据科学成为现实，或者至少使数据科学更容易获得。跟我们谈谈。AG：所以，这很简单。你可以打开任何报纸，每个人都在谈论人工智能的突破。每个人都在谈论这些成功的故事。的确，（人工智能）有着巨大的，神奇的潜力。但他们没有告诉你的是，大约有5到10家公司真正获得了这些好处。所有这些成功案例基本上都与这5至10家公司的项目有关。世界其他地区，财富2000强的其他国家基本上都在挣扎，他们没有看到同样的成功。所以我们的任务是把这种技术，人工智能，带到《财富2000》的其他公司。这是我们的使命。PBB：为什么这些公司在这方面苦苦挣扎？AG：他们基本上遇到了三个问题。一是很难让参与这些项目的不同的人真正地合作和合作。今天你想要解决的许多人工智能问题都需要不同的、不同的人物角色的参与。我给你举个例子。如果你想通过X光片来判断某人是否有肿瘤，并且你想用人工智能自动完成，那么你可能需要医生来帮助你建立这个应用程序。它不能仅仅是计算机科学家博士. 所以它涉及到医生，也包括正在开发软件的计算机科学家，以及可以进行机器学习和人工智能的数据科学家。但你也需要数据工程师，他们能把数据输入系统。我们在这些大公司看到的情况是，很难让这些不同的团队合作，合作，分享成果。政治经常会成为障碍。我把这叫做人的问题。我们看到的第二个问题是流程问题。这基本上意味着要让机器学习或人工智能进行端到端的工作，你需要做很多事情。你必须把数据输入系统，你必须清理数据，然后你必须建立预测模型——一直到做预测。而今天，你必须把很多不同的软件拼凑在一起才能使之工作。没有一个，单一的软件你可以使用。你必须解决的第三个问题是基础设施问题。那么，如何将软件加载到您正在使用的数千台计算机上，并对其进行管理，并确保它们是安全的呢？公司必须雇佣大量的DevOps员工来做这件事。这是三个不同的挑战，正在制造障碍。因此，基本上有1%的问题。也就是说，只有大约1%的公司在人工智能方面取得了成功。剩下的99%的人正为这三个问题而苦苦挣扎。PBB:所以我明白。你说的五到十家在人工智能方面做得很好的公司，主要是大的科技公司，对吧？AG：是的，拥有大量数据科学家和来自互联网的大量数据的大型科技公司是唯一做这些伟大事情的公司。PBB：你能多谈谈人们使用Databricks软件的人工智能项目的具体类型吗？或者具体的行业部门是如何使用它的？例如，一个是医学的。医疗空间丰富，我可以无休止地谈论它。但这只是一个部门。如果你进入金融领域，也会有很多问题。通常，这些挑战往往集中在您想要自动检测的各种异常类型上。比如说，一张信用卡刚被刷了，那是不是欺诈性收费？一个袭击刚刚通过网络，或者有人试图进入大楼，或者银行系统。是黑客吗？或者，这里有几十亿的股票交易。是否存在内幕交易或串通行为？当然还有工业IT。这些公司拥有大量的工业设备。事实证明，在过去的十年左右，他们在他们的设备上安装了很多传感器，他们收集了大量的数据。设备可以是任何东西，从喷气式涡轮机到钻井设备，你能说出来。现在这些传感器正在读取所有这些数据，公司希望能够根据这些数据做出预测。比如，这台风力涡轮机会出故障吗？如果是的话，我想知道，既出于安全考虑，也可以提前更换一些零件，这样可以避免故障。这些数据集非常庞大。它们总是以PB为单位。PBB：回到你提到的公司在分析大数据集和实现人工智能时通常面临的三个主要问题——Databricks的解决方案是如何解决这些问题的？AG：为了解决第一个问题，即人员问题，我们提供了一个统一的协作工作区，这是我们云平台的一部分。这使得组织中的不同角色能够彼此共享结果。他们可以合作，来看看预测、数据集、洞察，同时以安全的方式做到这一点，这样，错误的数据或错误的结果就不会传递给组织中的错误人员。这是我们在产品中构建的第一件事，当我们与客户交谈时，这是他们最喜欢的事情之一。这使得分享这些结果、从平台获得见解变得多么容易和简单。这里的关键词是合作。为了解决流程问题，这就是Spark本身以及我们围绕它构建的平台。它统一了你想做的人工智能的不同方面。因此，我们所构建的平台不是有很多不同的工具，而是使用一个API和一个框架，它允许您做任何事情，从访问不同的数据源到ETL数据（提取、转换和加载这些数据），再到围绕它构建模型，甚至可以在生产中实时为你做预测。所以这是Databricks开始的关键技术创新。这种统一只会使端到端的操作简单得多。而不是说，好吧，我们

本文地址： /zhuji/3044.html