New Google Process for Detecting Duplicate Content

Публикувано от Nick / Разгледано 2414 пъти / SEO / 1 Януари 2006

Ново патентовано приложение за откриване на сходно съдържание на Google изследва използването на комбинация от техники за сходство на отделни документи за откриване на уникално съдържание при търсене.
Web улеснява копирането и разпространението на думи и абзаци от една страница на друга и така едно и също съдържание може да бъде срещнато на повече от един сайт, независимо дали авторът на абзаца е разрешил това. Как търсещите машини се справят с откриването на повтарящо се съдържание на различни места? Как може да разпознават  кое съдържание да показват при търсене, въпреки че се дублира?

Дублирани и почти дублирани документи
Понякога авторът на статия може да желае да покаже статията си на повече от едно мястов случаите когато:

  1. Има огледален "mirror" сайт - сайт или само страница може да бъде копирана на друг домен, за  да се намали закъснението при зареждане на сайта при голямо количество посещения.
  2. Има различен формат на документа - текст, HTML или PDF
  3. Понякога съдържанието се споделя с други източници, както новините
Понякога статията може да е дублирана без знанието и желанието на автора, например:
  1. Някой взема част или цялата статитя за ре-публикуване сигласно или в нарушение на авторското право.
  2. Системата за публикуване показва статията на повече от един адрес на същия сайт, така че да се смята за уникален понеже е разположен на друг адрес.
Има и други примери където съдържанието е дублирано, или където документите са много сходни. Тези примери помагат на търсачките да опитат да не показват едно и също съдържание в резултатите от търсенето.

Това е предизвикателство с което инженерите на търсачките трябва  много внимателно да се запознаят, защото има места кадето дублираното съдържание си е напълно правомерно, и места където е без разрешение.

Последните Google усилия  в тази насока
Един от по-интересните документи от служителите на Google от последната година дава много добра представа за процесите на откриване на дублирано и подобно съдържание в Web -  Detecting Near Duplicates for Web Crawling (pdf).

В този документ, един от описаните подробно процеси е бил разработен от Moses Charikar, професор от Princeton, който в миналото е работил за Google. Moses Charikar е известен още и като авторът на Google патента описващ начините за откриване на "подобно" съдържание в Web - Methods and apparatus for estimating similarity.

Изминалата седмица друг Google патентовано приложение, от Monika H. Henzinger, изследва как еднаквото и  почти еднакво съдържание може да се открие на различни web адреси. Патентованото приложение включва референции към други по-ранни метод, ключително тези на Dr. Charikar.

Detecting duplicate and near-duplicate files
Invented by Monika H. Henzinger
US Patent Application 20080044016
Published February 21, 2008
Filed August 4, 2006

Патента описва как някой съществуващи методи за откриване на дублирано съдържани могат да се обединят и да се използват в Web.

Той съдържа редица цитати от редица документи в Web, които изследват въпроса за дублирането на съдържание, включително и следните:
В тези документи Dr. Henzinger изследва и тества документите от Andrei Z. Broder (Syntactic Clustering of the Web) и Moses Charikar (Similarity Estimation Techniques from Rounding Algorithms) и сръвнява подхода на всеки.

Изводът на Dr. Henzinger за ефективноста на двата метода от тестовете е - "Нито един от алгоритмите не работи добре при откриване на двойки почти-дублиран текст от един Web сайт, макар че и двата метода постигат отлични резултати при от на почти-дублирано съдържание от разлияни Web сайтове".

Използване на множество сходни техники заедно
Техники подобни на тези описани в документите от Broder и Charikar, могат да се комбинират да работят последователно, за да увеличат откриването на дублирано съдържание. Регистрираният патент представлява интересе поглед върху това как ще работи комбиниране на процесите

Използване на "отпечатъци"
Един от начините за използване на "отпечатъци" е създаване на "белези" в съдържанието на страницата се вужда от Fingerprinting By Random Polynomials на Rabin. Може да сеизползва и различен метод за поставяне на "отпечатъци", както описват Hoad и Zobel в Methods for identifying versioned and plagiarised documents.

Извод
Преоцесът описан в този нов патент не представя толкова нов метод за откриване на почти-дублирано съдържание, колкото  нов подход който дава предимства на другите методи за откриван.

Не съм разгледал подробно как различните процеси работят защото това е разгледано в дълбочина в документите към които съм дал линкове.

Като цяло идеята на новия патент е че трябва да се използват множество  методи, но да се използват интелигентно.



Търсене в статиите

Loading

Блог категории

  1. SEO ( 3 )

  2. Фирмена идентичност ( 1 )

  3. Достъпност ( 1 )

  4. Програмиране ( 3 )