译嘉动态

产品推荐

谷歌首席科学家谈到了谷歌是如何进行深度学习的

时间：2022-03-02 09:34:14 来源：admin 点击：次

2016年3月7日，Google首席科学家、MapReduce和BigTable等系统的创建者Jeff Dean应邀在韩国大学就大规模深入学习这一主题发表演讲，部分内容来自高可伸缩性文本和作者的YouTube收听。就在Alpha Go和李世石赛跑之前，观众问他关于他的预测。他只是说，一台已经训练了五个月的机器和一个顶尖的玩家之间的差距是很难说的；有人问他喜欢的编程语言（C++爱恨交织在一起，像谷歌的简单性，Sawzall是真爱），以及谷歌的第一天是如何度过的。早餐好，到处逛逛，聊天，找到各个领域的专家来克服困难。这篇文章从WeChat在硅谷的公开演讲董先生开始。

Google系统架构组的学者Jeff Dean在用大规模深入学习构建智能计算系统的讲座上发表了演讲，以及Google整合全球信息的使命，以便每个人都能够访问并从中受益。收集、清理、存储、索引、报告和检索数据，当Google完成这项任务时，它承担了下一个挑战。

当你看到这张照片时，你马上就知道孩子和泰迪熊在睡觉。当我看到下一个街景时，我立刻意识到纪念品店有打折。事实上，直到最近，计算机才能从照片中提取信息。

如果你想从图像中解释物理世界，计算机需要选择感兴趣的点，阅读文本，并且真正理解。

像下面要销售的文本汽车零件一样，传统的Google通过关键词匹配给出结果，但更好的匹配是第二个。这是一个深入了解需求的过程，不能停留在字面上，要做好搜索和语言理解的产品。

谷歌的深度神经网络历史

与其他公司不同，Google在2011年启动了Brain项目，当时它希望使用神经网络来改进技术，但是它不像大学里的象牙塔，而是结合了Android、Gmail和图片来改进产品以解决实际问题。其他公司将研究与员工工作结合起来。

神经网络的研究由来已久。它们产生于20世纪60年代，流行于20世纪80年代和90年代初，但是它们再也没有流行起来。谷歌和强大的基础设施，谷歌创造了一个极好的温床，人工智能与大量数据集。

深度学习从少量的产品组开始，一段时间后，响应足够好以解决之前不能完成的问题，更多的团队开始采用。使用深度学习的产品包括：Android、Apps、DrugDisco.、Gmail、图片理解、地图、自然语言、图片、机器人、语音翻译等。

深层学习可以应用到很多领域，因为通用的模块有：语音、文本、搜索词、图片、视频、标签、实体、短语、音频特征。去吧。

这个模型之所以很好，是因为它注入了大量的原始数据。您不需要教工程师很多特征点，但是该模型的强大之处在于通过查看一些示例自动识别数据中的有用信息。

神经网络是从数据中提取的复杂函数。从一个空间输出到另一个空间。这里的函数不是正方形，而是一个真正复杂的函数。当你给出一些原始像素，比如猫，输出就是对象的类别。

深度学习是指神经网络的层数，系统的优良性质是一组简单的数学函数，可以训练，深层神经网络适用于多种机器学习方式。

例如，输入猫的图片，输出是人工标记的猫的图片，这是监督学习。你给系统许多监督样本，让它学习近似函数，正如从监督样本中观察到的。

也有无监督学习。给定一张图片，你不知道里面是什么，系统可以学习寻找出现在许多图片中的图案。所以即使你不知道图片，它也可以识别出所有图片中都有一只猫。

深层网络模型类似于大脑行为的原理，但它没有具体地模拟神经元如何工作。它是一个简单而抽象的神经元版本。

神经元有一组输入。真实神经元会有不同强度的输入。在人工智能网络中，我们试图学习这些边缘的权重，以加强不同输入之间的连接。真实神经元通过输入和inte的组合来确定是否产生脉冲。大学。

人工神经元不产生脉冲，但它们产生一个数值，神经元的功能是通过非线性函数来计算权重之和。

典型的非线性函数是整数线性元素（max（0，x））。20世纪90年代，许多非线性函数是光滑的sigmoid()函数或tanh()函数，但对于神经元，其值更接近于0，这对优化系统更有利。例如，如果神经元有3个输入X1、X1、X3，则权重分别为-0.21、0.3、0.7。

为了决定图片是猫还是狗，这张图片需要经过很多层。这些神经元根据输入产生下一步。

最低级的神经元观察像素中的小像素。较高级的神经元将看到较低级的神经元的输出，并决定是否产生。

这个模型也是错误的，例如，这是一只猫，但事实上它是一只狗。作出错误决策的信号然后被返回到系统进行调整，以便剩余的模型在下一次看到图片时更有可能输出狗。这是神经网络的目标。通过小步调整边缘的权重，可以更方便地得到正确答案。可以聚集所有样本，降低错误率。

反向传播：积分的链式法则决定了高级神经网络的使用，如果选择是猫而不是狗，您必须找到方法来调整高级的权重，使其更适合于狗。

根据箭头的方向和重量，它更像是一只狗。不要因为表面复杂而采取太大的步骤，微调一个小步骤使其更有可能下次给出狗的结果。通过多次迭代和查看示例，结果更有可能为b这个链式规则用来理解底层参数的变化是如何影响输出的。简言之，网络变化循环被反馈到输入端，使得整个模型更适合选择狗。

重量微调

真正的神经网络通过1亿个参数的水平来调整输出网络。Google现在有能力快速建立和训练这些海量数据模型以解决实际问题并部署生产模型（手机、传感器、云，等等）。等等）在各种各样的平台上。

也就是说，神经网络可以应用于许多不同的问题。

用户行为：许多应用程序产生数据。例如，搜索引擎查询，用户在电子邮件中标记垃圾。这些可以学习和构建智能系统。

如果更多的数据被吸收，模型越大，结果就越好。

如果输入更多的数据，但不要使模型变大，那么模型的能力会受到某些数据集中明显特征的限制。通过增加模型的大小，不仅要记住显而易见的特征，还要记住一些可能看起来很小的微妙特征。

随着模型越来越大，数据越来越多，对计算的需求也越来越大。谷歌在如何增加计算量和训练更大的模型上花费了大量的精力。

第一组部署深层神经网络。他们实现的新模型是基于神经网络而不是隐马尔可夫模型。问题是从150毫秒的语音中预测10毫秒中的语音。例如，BA或KA的语音。你得到一个预测序列。然后使用语言模型来理解用户所说的内容。

最初的版本降低了30%的识别错误率，后来我们研究了一些复杂的模型来增强网络，进一步降低错误率。

ImageNet是6年前发布的，有100万张图片，是计算机视觉领域最大的图片。图片有1000个不同的类别，每个类别有1000张图片。有数千种不同的豹子、摩托车等等。问题不是所有的标签都是对的。

在使用神经网络之前，最好的错误记录是26%，谷歌的错误率在2014年下降到6.66%，赢得冠军，然后在2015年下降到3.46%。注意到Andrej的错误率为5.1%（他仍然花了24小时训练）。

3）图像类别识别

计算机在花卉识别方面是非常强大的，这是识别细微差别的一个很好的模型。

一般效果，如菜肴识别。

当计算机出错时，看一下错误的敏感性，比如左边的鼻涕是蛇，右边的是鬼。

Google图片团队了解了图像中像素的威力，开发了一个功能，允许您搜索没有标签的图像。例如，您可以查找雕像、绘图、水，并且不需要预先注释。

如何识别街道场景中的文本。首先，我们需要找到文本部分。该模型能有效地预测像素中的热点区域，这些像素包含文本，训练数据为包含文字分割的多边形。

因为训练数据包括不同的字符集，所以在多语言环境中不成问题。还要考虑大小字体、距离和不同的颜色。训练模型相对简单，即卷积神经网络试图预测每个像素是否包含文本。

RankBrain成立于2015年，在搜索排名中排名第三（前100名），其困难在于搜索排名需要理解模型，以及为什么需要做出决定。为什么当系统出错时会发生这种情况

调试工具已经准备好，并且需要足够的理解来嵌入模型以避免主观性。一般来说，不希望手动调整参数。您需要尝试理解模型中的预测，理解训练数据是否相关，是否与公共关系无关问题，以及您是否需要将训练数据应用于其他事物。通过搜索查询的分布，您可以每天得到更改，并且事件随时发生。如果希望查看该分布是否稳定，比如语音识别，那么一般人不会更改e音色。当查询和文档的内容频繁变化时，您必须确保模型是新的。我们需要构建通用工具来理解神经网络内部正在发生什么并解释是什么导致了这种预测。

许多问题可以映射到一个序列到另一个序列。例如，语言翻译，从英语到法语，就是把英语序列词翻译成法语序列词。

神经网络在学习复杂函数中特别有用。该模型学习从英语到法语的句子，句子以单词为单位，以结尾为信号，训练模型在满足结尾符号时开始生成另一种语言的对应句子，模型功能是使用语言中的语句对作为训练数据。

在每个步骤中都显示了词典中单词生成的概率分布。推理是通过一些搜索完成的，如果最大化每个单词的概率，则不会寻找最可能的句子。搜索直到找到最可能的句子。

该系统在公共翻译系统中表现良好。大多数其他翻译系统要求手动编码或机器学习模型仅以很小的一部分使用，而不是像这样的整个端到端学习系统。

这些字段是可以被分组为序列类的方法。

智能恢复是顺序类的另一个例子。如何快速回复电子邮件，厌倦打字。

Gmail群组已经开发了一个预测邮件响应的系统。第一步是训练小模型来预测如果消息是某个类如何做出短响应。如果是一个更大、更计算的模型，则尝试使用messa来预测序列的响应语言。例如，对于一个节日邀请，三个最有可能的答案是依靠我们。我们去。对不起，我们不能玩。

将先前开发的图像模型与序列类模型相结合。图像模型作为输入。这不是读英语句子，而是看图片的像素。

接下来是生成字幕的训练。训练集有5个不同的人写的字幕。总共有100万张图片，70万句子。结果如下

这两个模型是很好的译文：1）一个小孩紧紧地抓着毛绒玩具。2）一个婴儿在泰迪熊旁边睡着了。

以上是一些有趣和错误的陈述。你为什么错了

翻译小组编写了一个应用程序，使用计算机视觉识别镜头中的汉字，将它们翻译成文本，最后用图片本身覆盖翻译后的文本。

直接在电话上运行一些重要的方式。智能化将被转移到设备端，这样远程云的大脑就不会依赖于它。

Google非常关注研究效率。它需要快速训练模型，了解好坏，然后考虑下一步。模型应该花费几分钟或几个小时而不是几天或几周。这样每个人都可以更有效地进行研究。

机器学习的发展会越来越好。杰夫说机器学习社区发展很快。人们发表了一篇论文，一周内许多团队会跟进、下载、阅读、理解和实现他们自己的扩展。这与以前的计算完全不同。日志投稿，等六个月才知道是否收到，然后等三个月才发表期末报告。把时间从一年缩短到一周真可惜。

神经网络具有许多固有的并行性，并且所有不同的神经元与其他神经元保持独立，尤其是局部地，仅接受一小部分下层神经元作为输入。

数据并行化

优化的模型参数集不应该位于一台机器上或中央服务器上，而是应该具有多个模型副本，以便协作区域优化参数。

在训练过程中读取数据的随机部分。每个副本获取模型中的当前参数集，在当前梯度下读取少量数据，找到所需的参数调整，并将其发送到中心参数服务器。该参数服务器调整参数。这个过程是重复的，而且这种重复也会发生在许多拷贝中。一些拷贝在500台不同的机器上使用500个拷贝来快速优化参数和处理大量的数据。

一种方式是异步的，每种方式都有自己的循环，获取参数，计算梯度，发送它们，没有任何控制和同步，但是坏处是当梯度返回到参数时，可以在计算之后删除它。另一个是同步，控制器控制所有副本。

在过去的几年中，我们建立了两代用于训练和部署神经网络的计算机系统，并将它们用于解决传统上计算机难以解决的许多问题。

第一代系统DistBeliet在可伸缩性方面表现良好，但是用于研究的灵活性比预期的要低。

这也是第二代系统发展的动力，它采用了TysFROW来表示高级机器学习计算，它是C++语言的核心，冗余度较低。R语言不是问题。

计算可以通过数据流图来理解。

张量(Zhang Liang)表示N维数组。一维是向量，二维是矩阵；图像可以表示高维数据流，例如，图像可以用三维张量(行、列、颜色)表示。

张量从图像的一端流向另一端，称为张量流。边缘表示张亮（数据），节点表示算术运算。

这是一个使用状态计算的示意图。

这是分布式计算的示意图。

它可以在各种平台上自动运行模型：一个由电话上的数百个GPU卡组成的分布式系统，在一台机器（CPU或GPU）上。

总结

如果你不想通过深度学习网络解决你的数据问题，你必须快速考虑它。

当Jeff Dean第一次采访Google时，他被问到P=NP能推断出什么结论，Jeff回答：P=0或N=1。在采访者笑完之前，Jeff检查了Google的公钥，并将私钥写在黑板上。

上一篇 : 谷歌突然开枪！Android开始收费，专利费比肩扛高，网民喊
下一篇 : 谷歌神经网络技术已经实现了几十种语言的实时翻译

谷歌首席科学家谈到了谷歌是如何进行深度学习的

法律英语翻译时要知道哪些禁忌

科特迪瓦共和国驾照翻译驾驶证翻译换国内驾照—环球译嘉翻译

法律翻译的五点原则，你掌握了吗

优秀的翻译需要做好以下几点

服务热线：

大客户专线：

QQ在线咨询：

谷歌首席科学家谈到了谷歌是如何进行深度学习的

法律英语翻译时要知道哪些禁忌

科特迪瓦共和国驾照翻译 驾驶证翻译 换国内驾照—环球译嘉翻译

法律翻译的五点原则，你掌握了吗

优秀的翻译需要做好以下几点

服务热线：

大客户专线：

QQ在线咨询：

科特迪瓦共和国驾照翻译驾驶证翻译换国内驾照—环球译嘉翻译