欢迎来到文学城

文学城 > 都市言情 > 穿越:2014阅读 > 第241章 巨额的隐形财富

底色 字色 字号

穿越:2014:第241章 巨额的隐形财富

    前世生成式对抗网络自出现以来,针对不同的应用领域出现了许多变体。

    这些变体相对于最原始的生成式对抗网络都进行了一定的改进。

    这些改进有的是单纯改进了结构。

    有的则是因为理论上的发展而对生成式对抗模型涉及到的一些函数或者说参数进行了一定的改进。

    再或者就是单纯就应用方面进行了一定的创新调整。

    一项技术被频繁改动不是说明这项技术失败。

    刚好相反,这恰恰说明这项技术很成功。

    因为这某种程度上从侧面反映了该技术有很多的成长空间。

    事实也正是如此,前世生成式对抗网络是相当成功且应用广泛的。

    在很多机器学习领域都能看到生成式对抗网络的身影。

    之所以如此大概是因为原始的生成式对抗网络在构建的时候,先验假设比较少。

    正是因为对数据几乎没有任何假设使得生成式对抗网络具有几乎不设限的建模能力。

    借助于生成式对抗网路可以拟合多种分布。

    此外,由于生成式对抗网路模型不甚复杂。

    很多时候在应用生成式对抗网络的时候就不需要预先设计较为复杂的函数模型。

    在不少生成式对抗网络的应用场景中,工程师甚至只需要应用反向传播算法简单训练一下对应的网络。

    就可以让生成式对抗网络中的生成器和判别器正常工作。

    之所以将生成式对抗网络搞得这么比较易上手。

    跟生成式网络的设计初衷是为了进行无监督学习也有很大的关系。

    不过事物都是有两面性的,正是因为原始生成式对抗网路过于自由。

    训练过程很容易出现训练发散的情况。

    不止于此,生成式对抗网络还存在诸如梯度消失等问题。

    由于这些问题的存在,生成式对抗网络是很难学习一些生成离散的分布的。

    就比如原始的生成式对抗网路就不是很擅长纯粹文本方面的处理。

    除了涉及到部分场景下会将生成式对抗网络用于文本分割之外。

    多数时候很少将生成式对抗网络应用于文本(特指纯粹文字形式的文本)方面。

    不过尺有所长寸有所短,虽然并不是很擅长对纯粹文本信息的处理。

    但在其余很多领域生成式对抗网路都可以大显身手。

    在人脸识别方面、超分辨率重建等方面生成对抗网络更是大有用武之地。

    甚至是在语义图像修复方面生成式对抗网络同样是可以大显身手。

    除此之外,生成式对抗网络还有很多应用方向。

    概括地说,生成式对抗网络的应用前景是相当广阔的。

    说起来因为在这个时空机器学习方面的研究比较滞后。

    林灰想搬运生成式对抗网络这一模型的话其实也不需要担太多风险。

    尽管如此,在将生成式文本摘要方面的彻底搞定之前。

    林灰也不着急将生成式对抗网络相关的研究成果搬运出来。

    至于为什么林灰不将生成式对抗网络搬出来?

    林灰不想给外界其余的学术人员一种割裂感。

    就像林灰在游戏开发时不想给游戏玩家一种割裂感一样。

    虽然林灰现在已经有了一定的将生成式对抗网络的推出逻辑基础。

    (林灰此前搞得生成式文本摘要里面涉及到的生成式模型,而从尹芙·卡莉那收购来的专利中又涉及到类判别式模型,而生成式对抗网络其组成正是包含有生成式网路和判别式网路……)

    但如果林灰贸然搞出生成式对抗网路依旧不是很好。

    毕竟生成式对抗网络就应用层面来说和林灰现在一向搞得自然语言处理这一学术领域其实关系不太大。

    在这种情况下,林灰莫名其妙推出一个和自然语言处理几乎没啥关系的模型算怎么回事呢?

    虽然学术方面无心插柳柳成荫的例子很多,很多学术成果最开始问世的时候目的往往是跑偏的。

    但林灰内心信奉的原则是“吾道一以贯之”那种。

    无论是游戏开发还是学术进展上,林灰都不想给别人一种割裂感。

    总之,林灰是觉得科技树还是按顺序点比较好。

    虽然说不按顺序点科技树也可以,但在多元化的社会下不按规矩办事往往就意味着风险。

    乱点科技树,自己的科技逻辑链没形成。

    潜在对手却形成了相应的发展脉络,那么科技成果很有可能被对手所窃取。

    这是林灰所不愿意看到的。

    现在在林灰看来学术方面他所要做的依然是深耕自然语言处理,深耕生成式文本摘要。

    通过不断的深耕,从自然语言处理这一领域找到破局或者说点亮相邻于此时林灰已点亮科技成果的下一个科技树分支才是最好的。

    而且即便是一时之间未找到合适的破局点其实也关系不大,短时间内(起码是一个月)林灰还是不虚要太担心的。

    毕竟就生成式文本摘要这方面取得的“突破性进展(成功的搬运)”林灰也是要消化一段时间了。

    关于生成式文本摘要这方面的成果获得一个硕士学位几乎不在话下。

    其实林灰原本的估计更加乐观。

    林灰原本是觉得将生成式文本摘要这个方向的论文搞清楚,就差不多就能博士了。

    不过通过最近跟尹芙·卡莉的交流,林灰觉得是他过于乐观了。

    就像诺奖级成果不一定真的能获得诺奖一样。

    就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。

    但想藉此一步到位获得博士毕业论文也是很有难度的。

    毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。

    这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西。

    亦即工程上的成果。

    而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。

    虽然这个稍微低于林灰的预期,不过问题不大。

    学术上步子太大也不完全是好事情。

    既然短时间不搬运生成式对抗网路,那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

    当然不是。

    关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

    那就是前世的人工标注数据。

    涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

    往往一个模型需要很多的人工标注的数据。

    例如在图象识别里面,经常我们可能需要上百万的人工标注的数据,

    在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

    涉及到机器翻译更是需要数千万语句标注数据。

    说实话作为一个来自后世的技术人员。

    涉及到人工标注数据的价值林灰还真没太当回事。

    但现在看来,显然不能用后世的思维来思考维妮塔。

    林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

    一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

    如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

    可以看到数据标注的费用是非常非常高的。

    而这仅仅是2017年的数据标注成本。

    在更早期的标注成本岂不是意味着更高的数据标注费用?

    以这个角度来衡量的话林灰所拥有的一些现成的人工标注数据岂不是一笔巨额的隐形财富?

    dd

设置

字体样式
字体大小
底部广告