第82章 领先一代半的算法(3 / 4)
但问题在于抽取式摘要主要考虑单词词频,并没有考虑过多的语义信息。
也正因为如此,这种抽取式摘要很难获取复杂新闻的核心内容。
而且这种摘要方式的一个极其明显的弊端在于。
抽取式摘要对英文新闻还算能凑合着用。
但对于中文新闻完全是无所适从的状态。
总而言之,抽取式的摘要目前虽然已经比较成熟。
但是抽取质量及内容流畅度均差强人意。
正因为抽取式摘要的种种不足。
之后又出现了生成式摘要算法。
生成式摘要算法得益于神经网络学习研究的深入。
这种摘要以一种更接近于人的方式生成摘要。
这就要求生成式模型有更强的表征、理解、生成文本的能力。
生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按机器自己的话生成流畅的概括。
生成式新闻摘要主要依靠深度神经网络结构实现。
生成式摘要在理解新闻内容方面相比抽取式摘要有着先天优势。
但这种摘要也不是完全没有弊端。
这种摘要方式很容易受到原文长度的制约。