知网查重首先会对论文内容进行分段检测,获得每一章节的复制比,其次由于查重系统设置了5%阀值,如果对应章节复制比大于5%,就会按照连续出现13个字符类似判断为重复部分的规则,将重复内容计算到论文的重复率之中,如果低于5%,则不会对其计算重复率,最后待查重完毕后,系统会自动计算总重复率、引用率、总字数等查重指标,并自动标注在论文查重报告单中。
查重原理 1:句群语义模糊算法
当知网论文查重系统发现你论文中有一句话有抄袭嫌疑,然后系统会自动对这句话的前后进行模糊识别,这个算法是非常严格的,仅仅通过加一些副词也是能够被检测出来,例如「了、着、的、可以」等虚词的修改并不会降低重复率,虽然查重报告左右两边红色部分内容并不完全一致,但是系统会智能判定为语句重复。只有自己重新修改重复内容,或者大量修改重复部分,这时候才不会被检测出重复。
查重原理 2:划分章节分别检测,阈值 5%
整篇论文上传后,系统会自动根据文章生成的目录检测该论文的章节信息,然后系统会将论文分章节检测,可以获得每一单章节的复制比,同时目录显灰色不参与正文检测;否则会自动分段按照 1 万字符左右检测,同时,目录有可能被当成正文检测,重复就会标红。
知网系统将灵敏度的阈值设定在5%,用段落来计算。比如在5000字被检测的大段落里,引用的一片文献内容少于250字,如此便不会被判定为重复。所以,同学们后续论文降重的时候,最好不用重复引用一篇文献,可以应用几篇文献,每篇的内容只选择积聚,那么就能不被检测到。
查重原理 3:疑似部分二次检测
查重系统最厉害的地方就是这个功能,即它会对疑似的部分进行二次检测。 以下面这段文字为例: 我曾经看过一段文字,它是这么说的:「生而为人,我很抱歉」。我认为这有点悲观。「生而为人,我很抱歉」这句话是很容易被发现重复的,如果第一次被系统判定为疑似重复,那么系统就会加强这句话和相关的讨论作品、影视作品中的文字或者网络文章进行对比,并且前后文也会加强检测。
相关问答