建站资讯

这几篇SEO文章能提升你的SEO技能值60%(一)

作者:admin 发布时间:2020-08-02
近两月没有更新,陈年SEO已经解决1000W内容的建库、清洗、处理、上线,陆续有部分站点内容上线处理。文末附有机器原创文章思路和操作脑图,这张图可以帮你部分解决过飓风内容处理的思路,大量内容批量处理的方法(~一杯奶茶就能换精华技能树~)。
检索价值:百度搜索引擎建立这些页面的索引能够满足客户需求检索的需求。只要能够解决一类用户的检索价值即能满足客户需求的检索价值。
某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻在线直播。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了网站打开速度、可靠性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这样新浪转载的本文往往排名比个人网站要好,除了权重影响,新浪新闻给这个内容带来了内容增益。
相反说,如果转载的网站相当不知名,则其无法带来站点名/可靠性/速度的增益。甚至有,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,换句话说采集,就是纯重复的,与采集源相比,就是没有检索价值。
总的来说,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。
综上可以理解:百度搜索引擎喜欢的其实不是原创(个人原创也可能存在大量飘红、废话连篇、主题漂移、短内容等内容),而是稀缺内容(稀缺资源)、用户需求度和高品质页面。
这就为何我们要不断的拓词库,拓展用户潜在需求词,周期词、品牌词等一系列用户需求内容。
根据《CN-一种网页重复的判断系统及其判断方法》专利,这是二零一一年左右的老专利了,可以说是百度第一代原创文章识别系统。
提取出一个最长句子,根据提取出的最长句子的签名进行分组,同组内根据title的皮尔逊距离(计算网页页面的相似性)和链接发现时间进行独创性网页的识别,即判断同组内谁是真实的原创。
基本思想是对句子使用simhash算法做签名,然后用海明距离做原创度检测。(其主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。)
给定一段语句,进行分词,得到有效的特征向量,然后为每个特征向量设置1-5等5个级别的权重(如果是给定一个文本,那么特征向量可以是文本中的词,其权重可以是这个词出现的次数)。例如给定一段语句:“CSDN博客结构之法算法之道的作者July”,分词后为:“CSDN 博客 结构 之 法 算法 之 道 的 作者 July”,然后为每个特征向量赋予权值:CSDN(4) 博客(5) 结构(3) 之(1) 法(2) 算法(3) 之(1) 道(2) 的(1) 作者(5) July(5),其中括号里的数字代表这个单词在整条语句中的重要程度,数字越大代表越重要。
通过hash函数计算各个特征向量的hash值,hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101,“博客”的hash值Hash(博客)为“101011”。就是这样,字符串数组就变成了一系列数字。
= Hash * weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到:W(CSDN) = 100101 4 = 4 -4 -4 4 -4 4,给“博客”的hash值“101011”加权得到:W(博客)=101011 5 = 5 -5 5 -5 5 5,其余特征向量类似此般操作。
将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加,得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。
对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海明距离来判断它们的相似性。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。
在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。举例如下:10101和00110从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。
计算海明距离的一种方法,就是对两个位串进行异或(xor)运算,并计算出异或运算结果中1的个数。例如110和011这两个位串,对它们进行异或运算,其结果是:
1 更改(完全重写)标题。2 颠倒段落次序。3 加一段原创,如在最前面加一段内容概述。4 文字简单增减,如感叹词、形容词。5 近义词同义词替换。6 强行插入关键字,如在一篇小说中强行插入关键字。另外目前市场上的AI原创文章基本都是多次翻译、来回翻译,还有一些是同义词库替换,效果呢,相信大家都懂的。

收缩