第82章 领先一代半的算法(2 / 4)
虽然只领先一年,也完全够用了。
就算是只领先半年,也照样让你绝望!
你没打破我垄断之前,我各种高价讹诈赚取巨额利润。
你打破我垄断了,我直接白菜价跟着你一块摆烂。
气不气?
别人气不气不知道。
反正兔子已经气得想咬人了。
更何况算法这种东西迭代本来就快!
领先一年时间几乎等同于技术方面领先一代了。
而生成/抽取复合式新闻摘要算法更是领先14年这个时空主流新闻摘要算法一代半。
这可不是林灰夸张。
事实上,现在的新闻摘要自动生成的方式还是抽取式新闻摘要。
抽取式顾名思义就是按照一定的权重从新闻原文中寻找跟中心思想最接近的一条或几条句子。
抽取式摘要还在用着“古老”的textrank排序算法。
这种算法大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于1。
之后再对上述得到的关键语句进行排序,以期能得到想要的摘要。
客观来说,这种算法虽然也挺高效。