第90章 顶尖算法团队的赞叹(上)(3 / 8)
外行看热闹,内行看门道。
伊芙卡莉从之前南风app进行的几组新闻摘要测试的输入输出结果中很快验证了她的猜测。
南风app果然采用了全新的文本摘要算法。
至于判断的依据么,很简单。
抽取式的文本摘要直接从原文中摘取单词或完整的短语作为文章的摘要。
这个过程并不会产生新闻原文中没有的单词和短语。
而南风app这款软件在新闻摘要中却会产生很多新闻原文中没有的单词和短语。
也就是说南风app中所采用的算法绝对不是抽取式算法,至少不单单是抽取式算法。
而这种新的算法在进行新闻摘要的一大特征是会产生新闻原文中没有的单词和短语。
比起传统的抽取式文本摘要,伊芙·卡莉觉得南风app里这种全新的摘要方式更像是生成式的摘要方式。
然而新的疑问旋即出现在伊芙·卡莉的脑海之中。
这个南风app的开发者究竟是怎么搞定这种姑且被叫做“生成式摘要算法”的全新算法呢?
所谓的生成式摘要算法这样类似的依托于神经网络的摘要算法他们的开发团队之前也曾经涉猎过。
当时他们将这种算法称为“概括式摘要算法”,可是这种算法经过他们小组多轮测试实际表现并不理想。
虽然这种概括式或者叫生成式文本摘要的摘要算法能够产生原文中没有出现过的表达,相比于抽取式摘要算法更加灵活。
但也正因此生成式摘要更容易产生事实性错误,这些错误既包括与原文信息相违背的内容,又包括与人们的常识相违背的内容。
除此之外,这种生成式文本摘要算法在应付长新闻时很容易表现出明显的疲软乏力。
虽然将这种生成式摘要算法和抽取式摘要算法放到一起的话会改善生成式摘要算法处理新闻长度的能力。
但经过测试,没有生成式摘要算法拖油瓶,抽取式摘要算法反而能够表现的更加理想。
为了稳妥起见,伊芙·卡莉所在的团队最终还是选择通过进一步强化抽取式文本摘要的速度和准确度这一传统文本摘要方向。