6个关于原创、伪原创、采集的技术问答

2018年11月26日11:29:11 3 42 views
创业项目

我们来做个比喻,如果说采集的内容是纯银,那么伪原创就是黄金,而到我们所写的原创的时候,它就是钻石。闪耀着令人目眩神迷的光芒,但是相比之下我们知道的是钻石是非常稀少,并且形成困难的,所以在我们创作“钻石”的时候需要投入更多的经历!下面列出6个关于原创、伪原创、采集的技术问答。

6个关于原创、伪原创、采集的技术问答

谷歌翻译算原创文章吗?

网友问:想问一下把中文文章翻译成英文,然后放在网站上算原创吗?

Zac答:

分两种情况。如果是用Google Translate,或者其它自动翻译软件,翻译完直接放上网站,不算原创,而且违反谷歌质量指南。Google员工明确说过对这类内容的排斥。

但如果不是自动大量翻译、而且有一定的编辑润色,或者说增加了一定的价值,依然不是原创,但Google不一定把翻译的内容当作垃圾或作弊。

区别在于站长的意图:是把翻译软件当作大量自动生成内容的方法,还是帮助用户读懂有意义的外语资料?这种方法已经很多人在用了,效果参差不齐,和域名的权重、其它内容的多少、编辑的参与程度等很多因素有关。

 

网友问:我们网站谷歌PR目前还为0,翻译软件是有用,但是都是经过我们确认通顺或者说稍微修改后才上线的,是不是这样也不算原创?作为站长,我们的意图其实说白了就是想增加网站的访客,增加粘性,提高权重,没有什么其他意图,当然也是本着能帮用户解决问题的态度发布的这个文章。

Zac答:Google工具条上的PR早就不更新了,所以你看不到最新的PR值了。这不是什么大事,也不说明页面质量。你说的情况依然不能说是原创,但Google不一定能鉴别出来,而且经过修改、帮助用户解决一定问题的话,我觉得Google应该会喜欢的。

 

采集站优化效果也很强,请问前辈你怎么看?

网友问:请问现在有很多的克隆侠、小偷工具,做的采集站效果也很强,关键词排名、收录、权重都很高,比白帽优化效果还要好,请问前辈你怎么看待这个问题?

Zac答:

有的采集站排名效果确实不错,尤其是规模大、伪原创做得比较好时。但可能有更多采集站效果不好,我们平常见不到而已。所以,也不能笼统说采集站就效果好,只能说有做得好的。

作弊、反作弊,是黑帽SEO和搜索引擎博弈过程中必然出现的,短时间内恐怕不会消失。Google技术虽强,也一样有各种黑帽网站排上去。做个人网站,尝试这类方法没什么不可以的。公司网站,需要非常谨慎。

 

二次编辑过的文章是否会判定为采集呢?

网友问:我今年偶尔想起做一个网站,就用WP建设了一个网站,因为是新站,百度收录也比较慢,内容有很多是经过二次编辑的,原创的非常少,这种文章会不会被百度认定为采集文章?另外希望给一点代码优化和网站发展的建议。

网友答1:

采集妥妥的没问题,你经常搜索百度都会看见一大堆基本上一模一样的内容出来。可能没办法处理吧,如果都是原创的,就没有那么多能搜索的东西了,而且搜索的准确性也是很重要的。当然能原创是最好的,原创非常的花时间,而且也是容易被人采集掉的。

Zac答2:

你所谓的二次编辑,不就是采集吗?也许再加上点所谓的伪原创,穿插、替换一些关键词,修改一下标题,段落换换顺序,或者采集多处来源内容整合一下,诸如此类。

意图骗过搜索引擎是可以理解的,做得好也是可能骗过去的。但不能骗自己,不能连自己都觉得二次编辑就真的离原创不远了。得清楚地知道自己在干什么,才能更好地预估效果,承担后果。

适当数量的转载是可以的,但初期最好比例不要太大。采集的话,还需要一些技术,上面说的伪原创很可能不足够,需要改变文章的特征关键词。

 

对于原创文章生成这类工具,会对网站SEO有不利影响吗?

网友问:前不久看到有“原创生成工具”这种神器,好奇之下就百度了解了一下。发现此工具生成的文章具备几点基础:

1、使用搜索引擎、原创文章检测工具,均显示原创文章(100%);

2、生成的文章语句通顺,整篇下来跟一般的原创文章没两样;

可不可以把这类文章放到网站上填充内容,会对网站SEO有不利影响吗?

Zac答1:

如果工具生成的内容真的被搜索引擎认为是原创,那就不会有不利影响。问题是,怎么骗过搜索引擎?又怎么知道是否骗过了搜索引擎?

你说的检测工具显示为原创文章,据我所知,没有搜索引擎官方发布的这类工具,第三方工具的话,准确度恐怕存疑,没有几个公司能有搜索引擎掌握的数据量和计算技术。所以,网上的检测工具鉴定为原创,搜索引擎不一定这么判断。

生成的文章语句通顺,最大的可能性是采集后拼接,或者自动替换同义词。这种技术对搜索引擎来说不是很难判断。当然,也可能是有高级的工具,我没看到。你说的原创生成工具和检测工具,可以告诉我一下是什么名字,或者是哪个网站,我去试一下看看,也许会有不一样的结论。

Zac答2:

用他们的在线演示版生成一些文章看了一下,应该就是采集、拼接、替换同义词的组合使用。虽然做的效果还算不错,但还是有迹可循的。比如,我生成的几篇文章,每一篇都可以在网上找到原出处,只不过搜索原出处时,不能拿一句完整的话去搜索,因为还做了同义词替换(比如“后代”换成“下一代”),搜索几个词,加双引号,都能找到出处。

也许网上那些文章其实是从这个工具生成的,被人拿去发布在网站上了?貌似可能性又不高,因为网上看到的版本比工具显示的更通顺。比如原出处是“分泌凌乱是促成掉头发的一种主要原因“,而工具经过替换同义词,改成了”分泌的杂乱是促成脱发的一种关键问题“,后一句是不通的。

人来判断的话,鉴别出不是原创并不困难,原出处都能轻易找到,替换了什么词也很清楚。搜索引擎现在能否判断出来我就不敢肯定了。以后肯定行。

 

采集的内容会不会被当作垃圾站?

网友问:我在业余的时候做了几个不同行业的小网站,比如其中一个是关于本地装修的,里面每日更新的都是在网络上找的比较完整、实用的精品文章,像装修日记等等,经过整理编辑,修改里面的错误,形成一篇很完美的内容。但是毕竟都属于采集的,并非原创,只是想让自己的网站将散落在网上的特别好的精品文章收集在一起。还有几个小领域的网站,属于知识类的网站,也是收集整理行业内最精华的内容,每天编辑一两篇不间断。但不知道这样做对搜索引擎来说是否有意义,会不会被当做垃圾站处理。

Zac答:

这要看你所说的编辑整理,修改错误等是到什么程度。如果只是把不同地方的网站拼贴起来,改几个错别字,恐怕还是会被搜索引擎当作复制内容,不一定会被当作垃圾站,但要得到排名和流量是比较困难的。这种内容对搜索引擎来说并没有意义,网上已经有了的内容,为什么要到你的网站看呢?简单收集文章,即使是精华文章,也不是个好的内容方式。

如果编辑整理力度大一些,比如加上自己的评论、个人经验,并且占到一定比例,那还有些意义。

 

怎样做伪原创?

网友问:将3篇文章中的内容分别去两至三句话,组合成一篇新的文章,这样能不能被认为是原创?

Zac答:

不能,做伪原创也没那么简单,不然网上的各种抄袭、转载都成原创了,搜索引擎没那么傻。

搜索引擎判断文章是否原创时,会计算内容的指纹,比如对特征关键词做MD5哈希值计算。不同内容的指纹是不一样的,指纹相同就意味着是同一篇内容。所以调换顺序之类的伪原创方法不管用,因为不能改变特征关键词,也不能改变指纹。

计算指纹时可以按段落,甚至句子为计算粒度。所以从不同地方拿来内容,剪裁拼接也是不行,每个段落的指纹是不变的。建议不要做所谓伪原创,现在网上的垃圾内容已经够多了。

晨会游戏

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:3   其中:访客  2   博主  1

    • avatar boke112导航 6

      直接翻译不整理的个人认为都不是原创,如果翻译之后经过自己整理一番应该算是伪原创吧。

      • avatar Action 2

        满满的干货,学习了。