如果诚然是借助于这一思想的话。
在预训练的数据共性学习之后。
再对非共性标记数据进行额外学习时。
倘若因为迁移思想的引入使得预训练具备了举一反三的学习能力。
那么在对非共性标记数据学习所花费的时间可能会更少。
这样的话,尹芙·卡莉觉得先前的估计有点保守了。
同等规模语料库下的训练引入基于迁移思想的预训练机制的训练要比常规的至少能够节省70%的时间。
这就比较夸张了。
而且基于迁移思想搞定的东西某种意义上讲是可以“迁移”的。
也就是可移植性。
这特么的就逆天了。
涉及到文本摘要甚至是整个自然语言处理这一领域的研究以前多多少少是有点圈地自萌的意味的。
但如果具有了迁移性那完全是有可能渗透到别的领域的。
心念及此,一时之间尹芙·卡莉感觉林灰的着眼点也一定不是自然语言处理的这个小鱼塘。
林灰在下一盘大棋。
尽管和林灰相识不久,但作为一个跟林灰经常学术交流的人。
尹芙·卡莉能笃定林灰在学术方面的野心是极大的。
此前,尹芙·卡莉就感觉林灰能开启自然语言处理这个方向崭新的大门。
现在看来,以后林灰所影响的方向绝对不止是自然语言处理这一个方向。
涉及到整个机器学习领域,林灰都将有很大的建树。
甚至可能还远远不止于此,对于这一切尹芙·卡莉很期待。
没有什么比见证一位天才的雄起更兴奋的了。
(如果有,那或许只能是目睹一位“神”的破灭了。)
纵然现在的林灰还没有什么头衔加持。
不过,过往林灰的成就已经足够耀眼了。
尹芙·卡莉相信林灰会一点点将其野心所践行的。
为什么尹芙·卡莉能得出这样的判断呢?
林灰在过往在学术方面取得的璀璨成果只是尹芙·卡莉得出这样推断的原因之一。
这不是最重要的原因。
真正让尹芙·卡莉得出林灰能将其野心践行的原因在于林灰有自己的学术风格。
相比于看得见的学术成果。
学术风格这种东西很玄学,看不见摸不着。
听起来很虚幻的东西。
但学术风格这东西确确实实存在。
关于“学术风格”这一名词的讨论也常常现于各种学术交流以及科研人员日常的讨论中。
无论是学术路线、学术习惯这些东西某种意义上都会影响学术风格的形成。
衡量一个科研人员在学术方面是划水的还是水准之上的一般主要看是否有独立的学术风格。
一般学术方面只是划水的科研人员普遍都没有自己的学术风格。
其研究成果就比较随心所欲那种,研究课题也以“跟随研究”为主。
而水准之上的科研人员则普遍有着稳定的学术风格。
学术风格的稳定尽管不能意味着一切。
但起码也意味着该研究者对学术路线有着比较明确的规划。
或许林灰本人也没注意到他的学术风格。
但尹芙·卡莉觉得林灰是有属于其自己的学术风格的。
而且这风格很明显。
林灰拥有学术风格这件事也能侧面反映出其学术路线的稳定。
故而尹芙·卡莉是很相信林灰能够按部就班实现其野心的。
而林灰是什么样的学术风格呢?
太具体的尹芙·卡莉暂时也无法精准描述。
但就学术习惯方面而言,尹芙·卡莉觉得林灰有一极其鲜明的特征。
那就是林灰总是致力于赢在起跑线上。
当然赢在起跑线上只是比喻说法,确切地表述应该是
——在解决学术问题以及实际上的工程问题的时候林灰很倾向于将可能出现的问题扼杀在萌芽状态。
得出这一判断,尹芙·卡莉自然有相应的依据。
就拿前不久林灰在论文补充内容中所提到的预训练来说吧。
此前涉及到“训练”的时候人们往往想到是对训练生成的模型由机器学习方面的专家进行调整。
很少有像林灰这样的对训练过程就有想法的。
毕竟涉及到语料训练这已经是一个语言模型构建很靠前的问题了。
除了这个例子之外,还有此次来到中国和林灰的第一次谈话。
当时两人聊到了对“语料向量化之后再处理可能导致的维度爆炸”相关问题的处理时。
原本尹芙·卡莉设想的降维做法有将高维模型转化为低维模型、将分析后得到的高维数据降低成低维数据等等。
而林灰提出的思路却是将语料向量化之后得到原始高维向量数据直接进行降维处理。
而在此前涉及到维度爆炸这件事几乎没啥研究者想到直接对维度本就比较高的原始数据做文章。
毕竟这涉及到将语料信息抽象成向量原始数据已经差不多其对应研究中特别靠前的一个环节了。
尹芙·卡莉觉得这些都可以左证她先前的判断。
依据她先前的判断的话,还可以在此基础上进一步推断。
如果一个科研项目涉及到多个环节,每个环节都有可施为的空间。
那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道。
知道这个有什么用呢?
当然有用,甚至是有大用。
此前尹芙·卡莉对林灰为什么要收购她搞出的那项专利即《文本判断甄别比较的一种新方法》这个专利是很不明所以的。
在林灰提出了生成式文本摘要算法之后。
现在的自动文摘实现方法主要分为抽取式方法和生成式方法:
这两种摘要方法有很多原理和实际效能的区别。
但此二者本质上都是自动文本摘要。
举凡是自动文本摘要,其技术框架就都可以概括为:
内容表示→权重计算→内容选择→内容组织。
Ⅰ内容表示是将原始文本划分为文本单元的过程,主要是分字、词、句等预处理工作;
内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。
Ⅱ权重计算则是要对文本单元(即预处理后原始文本)计算相应的权重评分,权重的计算方式多样,如基于特征评分、序列标注、分类模型等提取内容特征计算权重。
这个步骤的目的是通过这一系列计算完成对预处理后的原始文本实现初步分析。
Ⅲ内容选择是对经过计算权重后的文本单元(即经过步骤Ⅱ权重分析过的文本)选择相应的文本单元子集组成摘要候选集,可根据要求的摘要长度、线性规划、次模函数、启发式算法等选择文本单元;
Ⅳ内容组织是指对候选集的内容进行整理形成最终摘要,可根据字数要求按顺序输出,也有研究者提出使用基于语义信息、模板和神经网路学习的方法来产生符合要求的摘要。
从技术框架的这几个层次的对应描述来看,可以看出无论是权重计算还是内容选择抑或是内容组织此三者都是很重要的。
如果搞不定权重计算和内容选择的话则根本搞不清楚摘要的时候具体对文本哪些地方进行摘要。
如果搞不定内容组织的话更是直观影响用户体验。
在这种情况下,这个时空的人们在进行自动文本摘要方面的研究时也确实是比较重视自动文本摘要的权重计算、内容选择和内容组织这三个方面。
曾经,按照尹芙·卡莉的思维,她是很不理解林灰为什么会对《文本判断甄别比较的一种新方法》这样一个侧重于内容表示的专利很感兴趣的。
甚至一度无论是尹芙·卡莉还是埃瓦尔德·切瑞都认为林灰只是单纯地通过购买一些和尹芙·卡莉有关但实际上无关轻重的鸡肋专利来向尹芙·卡莉示好。
但就现在来看,很明显不是这样的。
毕竟如果关于林灰在学术方面的习惯推定:
即“如果一个科研项目涉及到多个环节,每个环节都有可施为的空间,
那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道”
成立的话。
那么林灰在涉及到自动文本摘要的框架做动作的话反而最有可能会侧重别的研究人员所澹漠的“内容表示”这一环节。
如此一来《文本判断甄别比较的一种新方法》这样一个专利对林灰而言非但不是鸡肋专利。
反倒有可能是一项意义十分重要的专利。
以林灰几乎从来不做无意义的事情这一习惯来说的话,尹芙·卡莉越发觉得这一判断是正确的。
对于这样的推断尹芙·卡莉简直是哭笑不得。
一项自己搞了很久的专利,在自己手中没有发挥出真正的价值。
在别人那反而却具有了更大的价值?
额……
dd