TOP榜写作榜手机小说

最近更新新书入库全部小说

56小说 >> 穿越:2014 >> 第126章 不碰专业软件的坑

第126章 不碰专业软件的坑

……

伊芙·卡莉在邮件里不光表达了她对林灰鼓捣的生成式文本摘要算法的好奇。

还向林灰阐述了很多她在文本摘要研究过程中遇到的一些困难。

说实话,林灰并不是很擅长解答别人的困惑。

不过,正所谓独学则无友孤陋则寡闻。

林灰蛮好奇伊芙·卡莉在研究过程中遇到了哪些瓶颈。

兴许伊芙·卡莉的一些见解会对林灰有所启发。

花了不短的时间,林灰才将邮件主体内容看了个大概。

林灰前世工作中没少看英文论文。

否则,想理解伊芙·卡莉发来的邮件还真不是一件容易的事情。

没办法,伊芙·卡莉表达困惑的方式有点过于硬核。

林灰觉得伊芙·卡莉发来的这个邮件的主体内容略微改动一下的话都可以当成一篇综述直接往灌水期刊上发。

当然了,这仅仅是一种比喻,实际上即便能灌水也不要轻易灌水,论文灌水很容易成为学术生涯上的一个污点。

让林灰比较意外的是。

伊芙·卡莉在邮件中还给林灰大致介绍了一下西方学术界对于文本摘要的研究情况。

这对于此时的林灰来说尤为有价值。

毕竟各种学报论文之类的公开内容,基本上都是只谈进展不谈挫折。

从伊芙·卡莉介绍的内容来看。

这个时空,西方对于文本摘要方面的研究进展和前世那个时空的西方对文本摘要的研究情况有些差别。

但客观地讲,差别其实不是太大,只是比前世那个时空节奏要慢两年那样。

也可以理解,涉及到文本摘要的研究其实由来已久。

无论是前世还是今生,东西方在文本摘要上都会花费很多心血。

说起两个时空的人们为什么都对文本摘要倾注大量的心血。

其实是有原因的,文本作为信息的重要载体,研究文本信息的高度凝练化对于人们快速而准确地获取所需内容具有重要意义。

对文本摘要的研究由来已久,但实际上对于文本摘要的深入研究还是在新世纪才大规模进行。

之所以文本摘要的研究突然被重视起来。

是因为互联网技术的迅速发展,海量信息在互联网中不断涌现。

不提高对文本处理的能力,即便是海量信息涌现出来,这些信息也注定淹没在信息海洋中沦为无价值的垃圾信息。

前几年,大数据概念开始兴起。

对文本摘要的研究的重视程度更是达到一个新台阶。

衡量文本摘要的意义不能仅仅局限在文本本身。

要知道涉及到文本处理,表面上看是仅仅是和文字语言有关系。

但实际上这门学问不仅是涉及到文本,还包括对信息、物质和文化的深层次探索。

这样一种深入的研究,让整个文明都在进步。

从这个层面来说,文本摘要对人们的影响很大。

即便多数普通人的生活中察觉不到这玩意对人类的影响。

但并不能因此说文本摘要不重要。

对信息的研究越深入,我们就越能了解到这个世界。

除此之外,对文本摘要的深入研究,某种程度上可以开启人的心智。

文本摘要的深度探索,让我们对信息的掌控更强。

也正是因为上述原因,无论是哪个时空。

世界上很多国家都在对文本的探索。

人类社会记录方式的进步,某种程度上就集中表现在文本的不同凝练形式上。

文本的探索,对于一些大型企业来说,也是一项极为重要的工作。

涉及到文本摘要的发展,决定着一项又一项的产品的问世。

对于文本的探索,不仅仅对文学的深入研究有着很高的促进性,同样对于科技的推进有着巨大的促进作用。

总而言之,对文本摘要倾注些心血不过分。

毕竟这是林灰在技术领域方面迈出的第一步。

说到伊芙·卡莉遇到的困惑。

林灰没想到伊芙·卡莉的困惑主要集中在LH文本摘要准确度衡量模型的构建上。

林灰记得当时他关于这个模型构建已经阐述的够清楚的了。

构建模型的话首先要运用语言模型来评估算法生成语言的流畅度,然后使用相似度模型评估文本和摘要之间的语义相关性,最后为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。

虽然为了避免教会徒弟饿死师傅,林灰在这几个步骤之间故意遗漏了一些琐屑的步骤。

不过这种东西对于科研工作者来说,就像堑壕之于坦克。

虽然会有一些影响,但问题应该不大。

真的把所有的技术细节全部公布出来。

那也不能叫做公布技术路线了,那叫编教科书。

对于林灰提到的“运用语言模型来评估算法生成语言的流畅度”

伊芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的?

这个问题往后几年的话还真不是问题。

因为现成的语料库就一大堆。

仅仅是简体中文方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。

不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。

毕竟一些现成的语料库基本都是16年左右才问世的。

尽管如此,如何解释语料库来源的问题难不倒林灰。

事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。

最简单的方式——借助互联网可以自动构建文本语料库。

当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。

而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

从每个网站中筛选出用户所需要的文本作为候选语料。

这个过程其实不复杂,有点类似于爬虫抓取网页的过程。

比较困难的是这种方法形成的语料库如何去噪。

但这对于林灰也不是问题。

只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。

而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。

在完成去噪之后就可以输出语料库。

虽然这个过程实现起来仍旧不容易。

但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。

大多数情况下只要逻辑自洽就没人死磕。

除了好奇林灰是如何构建语料库之外。

涉及到“使用相似度模型评估文本和摘要之间的语义相关性”

伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。

额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。

关于这个问题的答案就不是三言两语能说得清的了。

喜欢穿越:2014请大家收藏:(www.56xs.net)穿越:201456小说更新速度全网最快。

穿越:2014最新章节 - 穿越:2014全文阅读 - 穿越:2014txt下载 - 猪熊的全部小说 - 穿越:2014 56小说

猜你喜欢: 天眼人生超品药师战地摄影师手札我和神仙斗地主都市之霸气仙医至尊透视眼超神系统重拾2006校花的天才高手重生从老婆倒追我开始我真的只想当一个学神啊我的大明星老婆逍遥画家亡国之后,我踏上了征途绝品强少回到1979当赤脚医生两界化妆师清纯明星爱上我小生来也重生之娱乐鬼才冰帝校园行灵气复苏:开局遇到白骨精都市无上仙医天界归来我的大明星家族极品农商
完本推荐: 别怂,上!(穿书)全文阅读蛇飞凤舞之灵蛇异动全文阅读至尊神医之帝君要下嫁全文阅读渣王作妃全文阅读超品药师全文阅读大明文魁全文阅读天字号保镖全文阅读超级高手在校园全文阅读九阳绝脉全文阅读御兽:宠兽只是给我凑羁绊的全文阅读重生之嫡女谋嫁全文阅读书生江湖行全文阅读重生之带着空间的宅男全文阅读重生之金融大亨全文阅读影视诸天签到者全文阅读崩坏传记全文阅读[娱乐圈]第一女团全文阅读[综英美]最终攻略成就全文阅读快穿:女配闪开,原女主要逆袭全文阅读时空棋局全文阅读
最近更新: 希灵帝国将夜网游之近战法师重生野性时代铁掌无敌王小军贞观大闲人何日请长缨星界游民海贼之天赋系统回到过去变成猫海贼之成就系统一念永恒自古红楼出才子完美人生掠天记武侠仙侠世界的厨神大文学家烟水寒超级怪兽工厂火影之最强震遁一剑斩破九重天师父又掉线了天道编辑器恰似寒光遇骄阳神医凰后至尊剑皇盛唐小园丁觅仙道侠行天下我从天上来

穿越:2014最新章节手机版 - 穿越:2014全文阅读手机版 - 穿越:2014txt下载手机版 - 猪熊的全部小说 - 穿越:2014 56小说移动版 - 56小说手机站