现在搜索引擎对文章的质量和原创性要求越来越高。研究表明,出现在网站上的新文章会被更好地收录,只有被收录才有机会获得更好的排名。今天,王泽鹏博客向你介绍一个工具:
这个工具的原理是通过智能短语切割而不是词汇切割来对文章进行整体分析,找出哪些词可以最准确地被其他词替代,例如:
像“吃瓜群众”这样的短语,在很多分词系统中可能会分为“吃瓜群众”和“群众”。在这套智能原创工具中,由于机器可以理解“吃瓜群众”“键盘侠”“五毛党”“网络喷”“吧精”等词的意思相近,所以工具可以通过这些词自动推荐这个短语。
比如像成语“津津有味”,智能算法知道文本中可以替换“热情”、“津津有味”等词语。
比如下面这段:“小龙女吴卓林,一直生活在跌宕起伏中。和妈妈吴绮莉的吵闹让吃瓜人乐此不疲,然后她爱上了网络名人,一个31岁的女孩,震惊了一群吃瓜人。”
在工具的智能算法分析之后,工具的界面将如下:
小龙女吴卓林一直生活在跌宕起伏中。与母亲吴绮莉的争吵使吃瓜者吃得津津有味。后来,她爱上了网络名人,一个31岁的女孩,震惊了一群吃瓜人。
蓝色文字和橙色文字代表可以点击显示智能替换词,而蓝色和橙色是有一定区别的。橙色代表有一定的替换词,蓝色标记这个词汇短语来猜测哪些词可以被替换。
作为一篇文章,我们通常会保留其主体,比如人物、事件等。如果这些代替了整篇文章,那就是假的。
虽然图中所示的智能算法知道“吴卓林”是成龙的女人,但是因为正文前面有“小龙女”,所以用“成龙的女儿”来代替并不符合语法。
按照这个方法,我们不断选择智能算法建议的备选词,最后一段就会变成:
小龙女吴卓林总是处在家庭生活的起起落落中。与母亲吴绮莉的磕磕绊绊让键盘侠吃得兴高采烈。后来她被抓到和31岁的美女网络名人睡一张床,被吓得在一群群网络喷尿。
通过这种代入,人物已经很不一样了。我们使用搜索引擎识别的相同方法来计算相似度。我们可以看到界面顶部的相似度已经降到了58.43%,这已经是很低的数值了,完全可以认为是两个不同的角色。
通过上面的整个例子,我们看到了一些有趣的选择:
跌宕起伏& # 8212;-起起伏伏。
吵& # 8212;-绊倒了
吃瓜的人& # 8212;-键盘侠
津津有味& # 8212;-兴高采烈。
网络名人& # 8212;-美丽的网络名人。
爱& # 8212;-分享一张床。
目瞪口呆& # 8212;-我害怕撒尿
吃瓜的人& # 8212;-键盘侠
看到智能算法厉害了吗?有时候连人类都不一定会有这些联想,这要归功于人工智能和大数据。通过对全网100亿篇文章的智能分析,将中文短语切分的准确率提升到一个新的高度。同时利用GPU云计算加速海量数据的智能汇总,几天之内就可以从几十吨的大数据中得出类似“惊呆了”“吓尿了”等短语的相关值。
通过这个工具,原创度检测平均可以降低到50%-70%左右,这是通过替换法对文章原创度修改的极限,同时也取决于原文的类型。比如因为娱乐类占100亿语料库的比例很高,所以娱乐类文章的算法会表现出更好的性能。
本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/91216.html
如有侵犯您的合法权益请发邮件951076433@qq.com联系删除