尽管和林灰相识不久,但作为一个跟林灰经常学术交流的人。
尹芙·卡莉能笃定林灰在学术方面的野心是极大的。
此前,尹芙·卡莉就感觉林灰能开启自然语言处理这个方向崭新的大门。
现在看来,以后林灰所影响的方向绝对不止是自然语言处理这一个方向。
涉及到整个机器学习领域,林灰都将有很大的建树。
甚至可能还远远不止于此,对于这一切尹芙·卡莉很期待。
没有什么比见证一位天才的雄起更兴奋的了。
(如果有,那或许只能是目睹一位“神”的破灭了。)
纵然现在的林灰还没有什么头衔加持。
不过,过往林灰的成就已经足够耀眼了。
尹芙·卡莉相信林灰会一点点将其野心所践行的。
为什么尹芙·卡莉能得出这样的判断呢?
林灰在过往在学术方面取得的璀璨成果只是尹芙·卡莉得出这样推断的原因之一。
这不是最重要的原因。
真正让尹芙·卡莉得出林灰能将其野心践行的原因在于林灰有自己的学术风格。
相比于看得见的学术成果。
学术风格这种东西很玄学,看不见摸不着。
听起来很虚幻的东西。
但学术风格这东西确确实实存在。
关于“学术风格”这一名词的讨论也常常现于各种学术交流以及科研人员日常的讨论中。
无论是学术路线、学术习惯这些东西某种意义上都会影响学术风格的形成。
衡量一个科研人员在学术方面是划水的还是水准之上的一般主要看是否有独立的学术风格。
一般学术方面只是划水的科研人员普遍都没有自己的学术风格。
其研究成果就比较随心所欲那种,研究课题也以“跟随研究”为主。
而水准之上的科研人员则普遍有着稳定的学术风格。
学术风格的稳定尽管不能意味着一切。
但起码也意味着该研究者对学术路线有着比较明确的规划。
或许林灰本人也没注意到他的学术风格。
但尹芙·卡莉觉得林灰是有属于其自己的学术风格的。
而且这风格很明显。
林灰拥有学术风格这件事也能侧面反映出其学术路线的稳定。
故而尹芙·卡莉是很相信林灰能够按部就班实现其野心的。
而林灰是什么样的学术风格呢?
太具体的尹芙·卡莉暂时也无法精准描述。
但就学术习惯方面而言,尹芙·卡莉觉得林灰有一极其鲜明的特征。
那就是林灰总是致力于赢在起跑线上。
当然赢在起跑线上只是比喻说法,确切地表述应该是
——在解决学术问题以及实际上的工程问题的时候林灰很倾向于将可能出现的问题扼杀在萌芽状态。
得出这一判断,尹芙·卡莉自然有相应的依据。
就拿前不久林灰在论文补充内容中所提到的预训练来说吧。
此前涉及到“训练”的时候人们往往想到是对训练生成的模型由机器学习方面的专家进行调整。
很少有像林灰这样的对训练过程就有想法的。
毕竟涉及到语料训练这个门类的研究在一个语言模型构建正常的步骤中已经是属于很靠前的步骤了。
这个例子已经很能说明尹芙·卡莉的判断了。
除了这个例子之外,还有此次来到中国和林灰的第一次谈话。
当时两人聊到了对“语料向量化之后再处理可能导致的维度爆炸”相关问题的处理时。
原本尹芙·卡莉设想的降维做法有将高维模型转化为低维模型、将分析后得到的高维数据降低成低维数据等等。
而林灰提出的思路却是将语料向量化之后得到原始高维向量数据直接进行降维处理。
要知道在此前涉及到维度爆炸这件事几乎没啥研究者想到直接对维度本就比较高的原始数据做文章。
毕竟这涉及到将语料信息抽象成向量原始数据已经差不多其对应研究中特别靠前的一个环节了。
尹芙·卡莉觉得这些都可以左证她先前的判断。
依据她先前的判断的话,还可以在此基础上进一步推断。
如果一个科研项目涉及到多个环节,每个环节都有可施为的空间。
那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道。
知道这个有什么用呢?
当然有用,甚至是有大用。
此前尹芙·卡莉对林灰为什么要收购她搞出的那项专利即《文本判断甄别比较的一种新方法》这个专利是很不明所以的。
在林灰提出了生成式文本摘要算法之后。
现在的自动文摘实现方法主要分为抽取式方法和生成式方法:
这两种摘要方法有很多原理和实际效能的区别。
但此二者本质上都是自动文本摘要。
举凡是自动文本摘要,其技术框架就都可以概括为:
内容表示→权重计算→内容选择→内容组织。
内容表示是将原始文本划分为文本单元的过程,主要是分字、词、句等预处理工作;
内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。
权重计算则是要对文本单元(即预处理后原始文本)计算相应的权重评分,权重的计算方式多样,如基于特征评分、序列标注、分类模型等提取内容特征计算权重。
这个步骤的目的是通过这一系列计算完成对预处理后的原始文本实现初步分析。
内容选择是对经过计算权重后的文本单元(即经过步骤Ⅱ权重分析过的文本)选择相应的文本单元子集组成摘要候选集,可根据要求的摘要长度、线性规划、次模函数、启发式算法等选择文本单元;
内容组织是指对候选集的内容进行整理形成最终摘要,可根据字数要求按顺序输出,也有研究者提出使用基于语义信息、模板和神经网路学习的方法来产生符合要求的摘要。
从技术框架的这几个层次的对应描述来看,可以看出无论是权重计算还是内容选择抑或是内容组织此三者都是很重要的。