More

Saturday, December 22, 2007

Google теперь не расценивает субдомен как отдельный домен

Google теперь не расценивает субдомен как отдельный домен
В Лас Вегасе закончилась конференция Pubcon, причем закончилась уже как дней 5 назад, а новости оттуда до сих пор продолжают прибывать, в основном в виде анализов сделанных заявлений. Одно из значимых сообщений сделал Matt Cutts (парень из Google занимающийся вопросами антиспама выдачи поисковика).

Одна из прописных истин для каждого сеошника в последнии годы было то , что для Google субдомены на отдельном домене воспринимались как отдельные домены (свои беклинки, свой PR, свои места в выдаче). При том Google использовал так называемый фильтр "host crowding". Смысл фильтра заключается в том, что при любом запросе с домена выдается максимум 2 результата, подобно многие наблюдали, выглядело это примерно так при запросе "ibm servers"



Это было сделано для того, что бы не позволить не одному домену занять более 2х мест в выдаче из 10, но так как мир не без русских хитрых людей, появились умельцы которые прокачивали по однотипному запросу несколько субдоменов одного домена и забивали топ10 только своими ресурсами.

Теперь же, Google не разделяет субдомен и домен, а оценивает их как одно целое, не позволяет вылезти в топ одновременно контенту с одного домена. Новинка как оказалась уже работает как 2 недели. Сам Matt написал по поводу нововведения целый пост Subdomains and subdirectories, в котором объясняет на английском тоже самое, что сказано мной выше. При этом он советует использовать папки вместо субдоменов, если контент не имеет координальных отличий с тем, что находится на основном домене. Весьма полезно было ознакомится с ответами Matt-a на вопросы в комментариях, например

вопрос:

Мэтт, как стоит поступить если содержания сайта предствлено на разных языках? Как бы ты поступил , создал субдоменеы для каждой языковой версии, папки или каждую зяковую версию поместил бы на национальный домен (ccTLD)?

ответ:

Например если у вас есть французская и немецкие версии вашего сайта, я бы поступил след. образом :

Создал бы языковые версии на отдельных национальных доменах, domen.de и domen.fr
Если это затруднительно, создал бы субдомены de.domen.com и fr.domen.com
Если и это невозможно, создал бы папки domen.com/de и domen.com/fr
За обсуждением данного нововведения можно следить на searchengines.ru

Posted by kass to Новости, Google

Wednesday, November 21, 2007

Автоматическое vs Ручное определение спама

Автоматическое vs Ручное определение спама


Поисковые системы используют все возможные методы обнаружения спама в своих алгоритмах. Но есть очень много ситуаций, когда используются люди для анализа сайтов (Google quality guidelines).

Так почему поисковики используют ручное распознование спама???

Необходимость ресурсов
Алгоритмы поисковиков становятся все более и более совершенными и они могут определить все что угодно. Только нужно учесть - сколько займет это ресурсов!!!

Поэтому, в тех случаях, когда необходима постоянная проверка используют автоматические ресурсы, а в других случаях прибегают к ручной оценке спама.


Ручное вмешательство
Другая проблема у поисковика: "Как идентифицировать спам?" Какойто текс скрывается, потому что кто то хочет обмануть поисковик? Некоторые случаи могут быть выявлены с помощью алгоритмов, но обычно необходимо принять решение. И его принимает человек. Поисковики делают все возможное в соответствии с заданными алгоритмами, а уже люди учат их как распознавать спам. Но все равно решение принимает человек.

Процесс рассморения

Приведу основную градацию запрещенных активностей по версии Google:
1. Не спам, легальный контент и активность;
2. Возможно спам. Обнаружен, но невозможно определить автоматически (навешивается оранжевый или красный флаг, небольшое уменьшение в ранжировании);
3. Определен легкий спам-контент. Определяется алгоритмом. (небольшое снижение PR)
4. Определен тяжелый спам. Помечается флагом и просматривется вручную (удаляется из индекса)
5. Возможный спам из-за внешних факторов. Находится, но невозможно определить алгоритмически.
6. Определен легкий спам-контент из-за внешних факторов. Определяется алгоритмически (помечается красным флагом)
7. Определен тяжелый спам-контент. Помечается и проверяется человеком(сайт удаляется из индекса)

Флаги сами по себе не несут на себе эффекта на PR, но с увеличением количества красных флагов для сайта упрощают дальнейшее их рассмотрение. Когда необходимо человеческое вмешательство, то Твои сайты (да именно сайтЫ) будут просмотрены и возможно все забанены. Если ты уже "прославился", то у Тебя очень большой шанс быть забаненным навсегда. Тебя спасет, только придумывание нового алгоритма - а я скрещу за тебя пальцы. ))

Используй знания для своего преимущества.

Для определения техники спама всегда необходим простой просмотр статистики загрузки сервера. Поисковики не любят тратить ресурсы впустую, поэтому ты должен избегать этого. Не бери на себя много красных флагов, потому что можешь получить статус серьезного спамера и получить запрос на рассмотрение твоего сайта человеком. Люди довольно дорогой ресурс и поисковики отправляют на рассмотрение только при 100% уверенности в спаме или обнаружении новой техники спама.

Однажды Ты будешь помечен как НЕВЬЕБЕННЫЙ спаммер. Ты можешь гордиться собой и продолжать в том же духе. А можешь сменить направление деятельности - убрать все ссылки между сайтами определенными как спам и обычными. И они закроют глаза на Тебя!

Успеха в Твоем нелегком деле!
Скажу спасибо Ван Дер Граафу за материал.

Posted by Victor Supryatkin at 11:12 AM

Tuesday, August 28, 2007

Прощайте .EDU или Белые снова в топе?

Google победил спам в новом апдейте?!


Этот сайт находится на первой позиции по сладкому запросу "buy cialis", который сами знаете сколько стоит...

http://pillshunter.com/
на 28 Августа 2007 года.


Но что мы увидим при более детальном рассмотрении его? ~3k бэков.

Он имеет ссылки разного с разным Pr (хотя это не главный фактор на сегодняшний день), сайтов в разных подсетях, разных доменах, а также с трастовых EDU доменов.

в ссылках присутсвуют TrackBack-и,Blog Comment спам в чистые ресурсы, использование уязвимости в формах поиска (которые, как заявлял Google в предпоследнем апдейте своего движка были устранены... =) )


Выводы.

1. Ищите уязвимости, которые позволяют размещать ссылки с трастовых ресурсов.

2. Спам в чистые ресурсы нормально работает. ( Блоги ), т.к. по заявлению Мэтта Каттца,сслыки с некоторых типов форумов не учитываются +)

И помните, что работники гугла все фильтры вводят алгоритмически под конретную тему. А любое отклонение от формализированного алгоритма дает оптимизаторам приемущество.

Thursday, August 16, 2007

Теория и практика дорвеестроения


Как сделать дорвеестроение экономически невыгодным


С радостью могу констатировать, что в последние дни Яндекс принял серьёзные меры к улучшению качества поиска, в частности, существенно активизировал борьбу с дорвеями. Это не может не радовать. Я, честно говоря, уже задолбался начинать искать с 3-й страницы результатов (1-я и 2-я обычно забиты дорвеями).

Удары по дорвейщикам нанесены очень болезненные, теперь доры банятся с космическими скоростями. Это вызвало «широкий общественный резонанс» - на forum.searchengines.ru тема борьбы Яндекса с дорвеями разрослась уже до сотни страниц.

Современная ситуация такова – дорвей теперь живёт в среднем 1-2 недели, не больше. Затем его гарантированно выявят и забанят. Как ни странно, но огромную роль в этом играют сами дорвейщики.

Несколько недель назад на этом форуме появилась тема «Советы старого дорвейщика», где некий мастодонт дорвеестроения под псевдонимом Imbolc с обидой высказывался о «юных отроках», которые наступают на пятки, и даже честно признался, что о нескольких дорвеях написал в Delspam.

Это радует. По законам диалектики змея начинает кусать себя за хвост. Дорвеев расплодилось столько, что они уже составляют друг другу серьёзную конкуренцию. Когда по запросу вылезают сразу 40 дорвеев (а мне и такое встречалось), то у пользователя уже появляется очень широкий выбор, по какому из заголовков кликнуть и кому из дорвейщиков принести очередные несколько центов за клик.

А свободная конкуренция в дорвейном бизнесе (как и в любом другом) губительна для «хозяйствующих субъектов». Поэтому в современной ситуации для любого дорвейщика единственным способом выживания становится выведение конкурентов из игры.

Теперь дорвейщики сами мониторят Интернет по низкочастотным запросам, и, как настоящие профи, выявляют чужие доры и тут же сообщают о них в Delspam. А учитывая, что этим делом теперь занимаются все дорвейщики, да ещё и «белые оптимизаторы» вместе с возмущёнными пользователями тоже вносят свою скромную лепту, доры теперь банятся максимум в течение недели после появления в выдаче.

Меня, как пользователя, это радует. Если сравнить с началом лета, то сейчас, в начале осени, дорвеев стало поменьше. Единственный неприятный момент, который не позволяет в полной мере насладиться радостью от смерти дорвеев, это то, что забаненные сайты выдаются по запросам до следующего апдейта.

А учитывая, что апдейты сейчас происходят в среднем раз в 7 дней, то дор живёт после бана ещё недельку. Именно этот факт (т.е. недельная жизнь) по-прежнему оставляет дорвеестроение прибыльным делом.

Партнерские программы и системы контекстной рекламы, в которых участвуют дорвейщики, платят от 5 и более центов за клик (по некоторым темам до 32 центов доходит, но будем учитывать минимальную ставку в 5 центов).

Современные дорвеи состоят из огромного количества страниц (10 000, 15 000, 25 000, 35 000, одни раз попался даже состоящий из 50 000 страниц). Каждая страница оптимизирована под определённый низкочастотный запрос из Яндекс.Директа. Учитывая, что там имеются только запросы с частотой не менее 6 в месяц, то у каждой страницы дневная вероятность посещения составляется 6/30, или 0,2 (это минимум).

Таким образом, дорвейский сайт, состоящий из 25 000 страниц, имеет минимум 5 000 посетителей в день, из которых минимум каждый 10-й, пытаясь разобраться, что делать дальше на этих дебильных страницах, кликает по рекламной ссылке. 5000 / 10 * 0,05 = 25 баксов в день.

За неделю своей короткой жизни дорвей приносит своему создателю минимум 175 у. е. (естественно, не упёртых енотов, а того, что сейчас нельзя называть вслух :). Расходы на покупку доменного имени (как правило, в дешёвых зонах info и org) и оплата за хостинг в среднем уменьшают эту цифру на 20-30 гринов, и чистая прибыль дорвейщика за недельную жизнь дора составляет в районе 150 бакинских (опять же, это минимум).

Поэтому, даже учитывая, что дор банится в день появления в выдаче, он всё равно себя многократно окупает себя за ту неделю, пока сохраняется в СЕРПе до следующего апдейта.

Чтобы решить проблему дорвеев коренным образом, раз и навсегда, надо сделать дорвеестроение экономически невыгодным.

Как этого добиться? Google решил эту проблему для англоязычного Интернета методом sandbox - «песочницы» (когда сайт появляется в выдаче через полгода или даже через год после индексации). И действительно, если в течение года платить за хостинг, а потом вылезти в СЕРП и пожить всего недельку до окончательного бана, то в этом случае дорвей себя не окупит, и принесёт лишь убытки.

Проблема в том, что для Рунета «песочница» неприемлема (не случайно в Гугле на Рунет свой sandbox не установили). Ведь под «песок» попадают не только доры, но и нормальные сайты. А в России вебмастера не настолько богаты, чтобы за год вперёд оплачивать хостинг, не видя никаких результатов своей работы.

Если Яндекс введёт «песочницу», то Рунет остановится в развитии. Останутся только те сайты, которые есть сейчас, а новые просто перестанут появляться (за исключением корпоративных, а также интернет-магазинов). Новых информационно-познавательных сайтов, особенно узкотематических, просто не будет вообще. Рунет станет никому не интересен. И тогда пользователи валом повалят в англоязычный Интернет, вооружившись программами-перводчиками типа PROMTa, и естественно, искать они будут в западных поисковиках (где 56% аудитории прочно захватил Google).

Если кто-то предложит руководству Яндекса ввести «песочницу», такого человека можно сразу разоблачить как агента Гугла :). Как говорили древние римляне, «Кому выгодно?».

Поэтому проблему дорвеев надо окончательно решать не «песочницей», а другими методами. В связи с этим у меня 2 предложения:

1. Найти техническое решение для моментального удаления забаненных сайтов из выдачи. Если дорвей не будет ещё неделю мелькать в СЕРПе после бана, а исчезнет сразу же, то он не будет приносить деньги создателю и станет убыточным.

2. Не пускать дорвеи в СЕРП и выявлять их на стадии индексации.

Остановлюсь на этом поподробнее. При индексации можно сразу же выявить редиректы, фреймы размером в 100 % экрана, и т.д. Но этим сейчас занимаются только «юные отроки». Опытные дорвейщики перешли на обычную контекстную рекламу и партнерские ссылки, то есть чисто по техническим признакам (а не по содержанию текстов) их творения от нормальных сайтов неотличимы.

Но есть у современных дорвеев одна интересная черта, которая отличает их от нормальных сайтов чисто в математическом выражении. Этот характерный признак - количество страниц в момент первой индексации.

Любой нормальный сайт развивается не сразу, а постепенно.

Допустим, появилась доска объявлений. Сколько там объявлений, до того, как её проиндексировал поисковик и все о ней узнали? В лучшем случае несколько десятков. А после индексации, при грамотной оптимизации и раскрутке, страниц с объявлениями через год может быть уже и 30 000. Но это через год, а не сразу.

Или форум возьмём. Кто там постит, кроме админа, до того, как форум проиндексировали и народ про него узнал?

Или информационный сайт. Естественно, сначала для него контента напишут, допустим, несколько сотен страниц, ну тысячу максимум, а потом страницы будут постепенно прирастать.

И в интернет-магазине то же самое. Это в Amazone после 10 лет работы 150 000 тысяч наименований с отдельной страницей под каждую книгу. А сначала было около тысячи наименований книг, и соответственно – около 1 000 страниц.

И только один вид среди всего многообразия сайтов может в первый же день своего существования иметь страниц количеством в десятки тысяч. Это дорвей. Здесь ведь машина страницы генерит, а не человек ручками пишет. Машине какая разница - 10 000 страниц в день или 100 000?

Если робот уже при первой индексации обнаруживает, что на сайте сразу 15 000 страниц появилось – такой сайт нужно тут же банить автоматом, или модератору проверять, перед тем, как в выдачу пустить (хотя это уже лишнее – никогда не поверю, что в первый же день появления на сайте такое количество страниц может оказаться, если сайт люди делали, а не дорген).

Конечно, дорвейщики начнут хитрить, и будут, допустим, не 20 тысяч страниц на сайте делать, а тысячу, чтобы их в выдачу пустили. Но это означает уменьшение прибыли в двадцать раз. А если такой сайт будет вылетать из выдачи не через неделю после бана, а через 10 секунд, то прибыли от дорвеев не будет вообще. Одни убытки.

А в условиях рыночной экономики деятельность, которая не приносит прибыли, будет прекращена. И тогда мы сможем смело опрокинуть стопарик хорошего деревенского самогона на поминках по безвременно ушедшим дорвейским временам.



Информация предоставлена форумом яндекса .









Корнев Алексей
...От 24.03.07

Алексей, для рассуждения о теме дорвеев, Вам нужно представлять как их сложно находить поисковым машинам. Дорвей-строительство просто немного видоизменяется под новые критерии поисковых систем.

Смена шаблона дорвея, смена тактики и доры снова в топе ))

Wednesday, August 1, 2007

Техника склейки ПРа

Basically all you are doing is adding one line of code to your .htaccess file.

The short sweet and simple method....

1.) Paste this line of code in your .htaccess file

Redirect 301 /index.html http://www.google.com

And your done! Notice that your homepage will now suddenly redirect to Google, but all other pages will still work fine. After the next Google PR update, remove that line of code in your .htacess file, and if you look at that page it will have a PR 10!

::::Commonly Asked Questions!::::

Q.) How do I make A certain page other than my homepage have a pr10?

A.) Simply edit the 1 line of code to show the page you want to have the page rank 10. Let's say you want your links page to have an instant pr10, you would use this line of code in your .htaccess file. Redirect 301 /links.html http://www.google.com

Q.) How do I customize the instant page rank that I receive? For example I want my website to have a page rank of 9...8...7...or 6 to make it look less obvious that the site used blackhat seo

A.) Simply change the url of the destination url in the code. For example..

If you want an instant page rank 9 domain use this code..

Redirect 301 /index.html http://my.yahoo.com/

If you want an instant page rank 8 domain use this code...

Redirect 301 /index.html http://www.fortunecity.com/

If you want an instant page rank 7 domain use this code...

Redirect 301 /index.html http://www.netfirms.com/

Basically look at the site that you put into the code and you will receive the exact same page rank as that website during the next pr update.

Is Google’s New Algorithm Update Impacting Your Site?

Is Google’s New Algorithm Update Impacting Your Site?

April 11th, 2007


Well Google is updating their algorithm again and it’s wreaking havoc for a number of entrepreneurs who rely on their web rankings to get business.

To “improve” their search engine, Google is taking the first set of results for a keyword and testing them against a number of different ranking measures. If your site is in the first set then you may see the yo-yo effect of the term being at the top of the page and then at the bottom only hours later. If your site is not in the first set then you probably are not seeing any difference… yet.

If after the re-ranking your site score better than before you will rise to the top and if it scores worse you will drop off. It will likely take a couple of weeks to settle down so expect the bouncing around to continue.

Google is also sending a lot more pages to their supplemental index. If your page gets put into supplemental you will lose all but all of your traffic to the page. I have 15,000 pages on my site to monitor so it’s hard to keep up on all of them but it also allows for tweaking and testing without damaging the whole site.

What I have found is that some of the pages that went to supplemental were very keyword rich. I used to rank on the first page for these pages and suddenly dropped off the index. By lowering the keyword density of the test pages they were back to page one within a couple of weeks. We are now applying this keyword density lowering strategy to the rest of my pages.

If you have noticed a drop in your rankings and traffic recently, try changing the keyword density around and submit a new sitemap to Google to let them know about the changes. If your rankings are jumping around from day to day, hang in there - the update will settle down in short order.

Evan Carmichael

Saturday, July 28, 2007

Киберпреступники предлагают утилиту для размещения рекламы в Сети

Киберпреступники предлагают утилиту для размещения рекламы в Сети
25 июля 2007 года, 13:26
Текст: Владимир Парамонов

На некоторых сайтах в интернете в продаже появилась очередная хакерская утилита, которая, как утверждают ее создатели, способна за считанные минуты разместить в Сети сотни рекламных ссылок.
Читать далее...

Владимир, Это не хакерская утилита, а универсальный инструмент размещения ссылок. =)))

"...Нужно отметить, что в последнее время объявления о продаже различных хакерских инструментов все чаще появляются в интернете..." - Владимир это ж миллионная индустрия ))

Жду новых твоих статей )) Жесть ))

PS. Утилита хрефер так себе, не очень быстрый сбор позволяет делать... Та и хрум не самый быстрый софт )))

Saturday, July 21, 2007

Фарма... )

Прекрасное слово фарма =) Вкусный Cialis любят ))

Monday, July 9, 2007

Фильтры доменных зоне...com и .info

Популярная доменная зона .info не лучшее решение для размещения серо-белого проекта.
Нами был проведен тест с помощию скрипта "БлогоРама". При одинаковых условиях были выбраны 2 домена в зоне .com и .info. Скорость индексации краулером в COM выше чем в INFO. Разница составила в 10 раз.
Еда для ботов. От WordTracker'a
seo
seo services
seo company
michigan seo
seo firm
seo optimization
seo tool
search engine optimization seo
toronto seo
seo marketing
seo web design
michigan seo expert
seo technology
michigan seo target marketing
seo solution

seo
seo services
seo company
michigan seo
seo firm
seo optimization
seo tool
search engine optimization seo
toronto seo
seo marketing
seo web design
michigan seo expert
seo technology
michigan seo target marketing
seo solution
seo
seo services
seo company
michigan seo
seo firm
seo optimization
seo tool
search engine optimization seo
toronto seo
seo marketing
seo web design
michigan seo expert
seo technology
michigan seo target marketing
seo solution
Или вот этот...

"Thank You For Your Order!"
попробуйте этот запрос.

"Send it to me NOW!"

Friday, July 6, 2007

War vs EDU spam.

Что то музчины из компании Гугль начали думать как побороть .EDU проблемму.
Однако трастовость доменов у них какая-то странная. Вот так можно очень оперативно сделать красивую "выдачу"


http://www.washingtonpost.com/ac2/wp-dyn/admin/search/google?keywords=site:ВАШ САЙТ

Wednesday, July 4, 2007

Проверка индексации с блоггера

Best search engine! Simple Search Engine New product!

Pharmacy VS тапки.

Цель эксперимента проверить с Блогорамой 3.0 конверт на PPC сабжа.

Monday, June 25, 2007

Как много сплогов?


Рис.1. Процентное рапределение сплогов на них.




Рис.2. Популярные блог-сервисы.

Thursday, June 14, 2007

CAPTCHA-OCR

Алексей Колупаев признался, что делает CAPTCHA-распознавалку для спамеров
Эффективность CAPTCHA начинает снижаться по мере развития систем OCR. Тесты стали настолько сложными, что люди с трудом справляются с ними. Нужно внимательно приглядываться, чтобы различить буквы и цифры на этих замазанных, почерканных, зашумлённых картинках.

Крупные IT-корпорации активно ведут изыскания в этой области. И eBay, и Microsoft работают над изобретением более эффективных версий CAPTCHA. Один из вариантов — распознавать животных, а не буквы.

Некоторые независимые исследователи трудятся над противоположной задачей — и они порой добиваются немалых успехов. Например, 25-летний украинский хакер Алексей Колупаев создал программу, которая способна пройти почти любой тест. Об этом пишет газета New York Times.

Алексей Колупаев работает в одной из киевских интернет-компаний, а в свободное время решает проблемы оптического распознавания символов. Вместе со своим товарищем Юрием Огиенко они создали эффективную программу OCR, которая «заточена» специально на решение CAPTCHA. Украинские предприниматели также основали компанию для коммерческого продвижения этой технологии. Кстати, их сайт — лучший информационный источник в интернете по данной теме. Там подробно рассказывается, как можно взломать систему CAPTCHA-защиты на PayPal, MySpace и других сайтах.

Украинцы говорят, что могут настроить свою программу на решение любого типа CAPTCHA. За подобную настройку они берут от $100 до $5000, в зависимости от сложности задачи. Среди клиентов Колупаева встречаются и спамеры.

«Любую систему можно взломать, у каждой есть свои слабости, — говорит Алексей. — Если вы создали программу, которая распознаёт только одну из ста картинок, это не проблема. Просто нужно постучаться на сайт сто раз — и вы внутри».
LINK

Wednesday, June 13, 2007

15 МЕТОДОВ ОБНАРУЖЕНИЯ ПОКУПОК ССЫЛОК ГУГЛОМ

« Adam Lasnik Explains How NoFollow Works15 Methods for Paid Link Detection

June 11th, 2007 by Eric Enge
Продаются сслыки разными там несознательными пользователями. А ссылки не простые, а провернные и хорошие. Но в гугле не лапти работают, вот они и вывели закономерность о 15 факторах продажных ссылках. 

Links Labelled as Advertisements: Поисковик может сканировать текст на слова:, такие как “Advertisement”, “Sponsors”, “Our Partners”, и проч.

Site Wides: Site wide linking is unnatural, and should be a rare part of your link mix (purchased or not). The only exception to this is the interlinking of all the sites owned by your company, but this presumes that the search engine will understand that all of your sites are from your same company. In general, site wides are a serious flag.

Links are Sold By a Link Agency: Of course, link agencies are knowledgeable about the link detection methods listed here, and do their best to avoid detection with the links they sell.
Selling Site has Information on How to Buy a Text Link Ad: Search engines can detect sites that provide information on how to advertise with them. This combined with other clues about links being sold on the site could lead to a review of the site selling the ads, and a discounting of the links.

Relevance of Your Link: It’s a powerful clue if your link is not really that relevant to the page it’s on, or the site it’s on.
Relevance of Nearby Links: Another clue would be the presence of your link among a group of links that are not tightly themed.

Advertising Location Type: The search engine can detect when your link is not part of the main content of the page. For example, it appears in the left or right column of a 3 column site, and the main content is in the middle.

Someone Reports Your Site for Buying Links: Who would do this? Your competitor! If your competitor submits an authenticated spam report to Google, it will get looked at, and acted upon.

Someone Reports Your Site for Some Other Reason: Perhaps your competitor does not recognize you are buying links, and turns you in for something else. Once this happens, the search engine will take a look at all aspects of your site, not just the reported issue.
Someone Reports the Site you Bought Links from for Selling Links: A competitor of yours can do this, or a competitor of the site selling links can do this. Once a search engine figures out that a site is selling links, it’s possible that this could trigger a deeper review of the sites that were buying those links.
Someone Reports the Site you Bought Links from for Some Other Reason: As before, this can lead to the search engine discovering that the site is selling links, even though it was not the core subject of the Spam report filed against it.
Disgruntled Employee Leaves Your Company, and Reports Your Site: For decades, many companies have had a practice of escorting fired (or laid off) employees out of the building. The reason for this approach is that people get upset when they lose their job. However, even this practice would not prevent such a person from reporting your site in a spam report to a search engine. Even though that may be a violation of the confidentiality agreement you probably have with your employees, you would never know, because there is no transparency in spam reporting.
Disgruntled Employee Leaves the Agency Your Used, and Reports Your Site: This same scenario can play out with an employee leaving the link agency you used. This form of disgruntled employee can report either your site directly, or the agency itself.
Disgruntled Employee Leaves the Site Your Bought Links from, and Reports Your Site: Finally, it can also happen with someone leaving the company you bought the links from. This type of disgruntled employees can report your site, or the site they used to work for.
Internal Human Review: Last, but not least, the search engine can do a human review. In general, search engines don’t do spontaneous reviews of sites, and wait for things detected algorithmically, or a spam report, to trigger a deeper review. But, you could certainly imagine that search engines could make an overt effort to clean up the search results in portions of their index they perceive to be spammy.
Search Engine Courses of Action
In the case of Google, it is known that one of the basic policies is to punish sites who sell text links by terminating that sites ability to pass link juice. This is essentially a first course of action. Once this is done, Google could look more closely at the selling site, and the purchasing sites for other signs of spammy behavior.

The search engines also take stronger actions at times, such as an algorithmic penalty, or banning a site from their index. I don’t know exactly how those determinations are made, but I believe that there are 3 major triggers for such action:

Это происходит когда накаливается достаточно негативной информации о вашем сайте.
Поисковик "понимает", что вы покупали ссылки в промышленных маштабах.
Upon human review, the search engine detects a clear pattern of an intent to deceive them.

Summary
Plenty of businesses are successful with a link buying strategy. However, the search engines are investing more and more effort into their detection. At STC, our preference is to focus on obtaining links through great content, and making people aware of what we (our clients) have. But we place a very high priority on very high value links.

These are the types of sites that are very difficult to buy links from. For one thing, when these higher profile sites sell links, it does not take that long for it to become public knowledge. Just ask United Press International, who recently promoted the sale of links for improving page rank. UPI has discontinued the practice because of the furor it created.

This also has great synergies with the notion of investing time in developing great content for users. In a world with increasing personalization by the search engines, this is increasingly very, very important, and over time may well have a larger impact on your rankings then the links you get. You can see the search engines shifting from having web sites vote on your site, to having users vote on your site. One way or another, this is coming to a search engine near you.

Monday, June 11, 2007

Упс....

Замечено выпадение из индекса гугла 23:45 / 11 июня 2007 года. Несколько простых BackLinks 0-3 и один 9.

Есть вопросы? Dimo-k ответил на них.

Как вывести дор в топ гугла?
- Сделать дор и поставить на него хорошие ссылки

На сколько важен для доров сложный контент(цепи маркова , новости, рсс ленты),нужен ли он вообще
- контент важен. марков - фигня (ред.), если без усовершенствований. если сайт серый, то контент нужен более адекватный. для доров пох.

Действительно ли фрихосты предподчительней, при выведении на более высокие места в поисковиках, чем собственные домены
- фрихосты вылезают легче, но без ссылок и они ничего не смогут дать. имхо домен - это вторично, ссылки - первично

Позволяет ли дополнительное “подШпамливание” поддерживать доры в Yahoo/MSN?
- да

Остались ли доходные темы, которые поднимаются почти без Шпама?
- Да

Есть ли способ на новом домене обойти песок за срок менее месяца?
- Да. Зависит от темы

Какие есть варианты вывода дора в топ без Шпама?
- со своих ресурсов

Часто в выдаче доры,на которые MSN вообще не показывает ни одного бека…
- у поисковиков разные базы, один может знать какие-то ресурсы, другой нет.

Какая схема Шпама предпочтительней - кучей или немного, но пиаристыми?
- много по пиаристым для быстрого эффекта. немного всяких каждый день для продолжительного эффекта. в каждом конкретном случае зависит от ресурсов

Для “белых сайтов”. Какие ресурсы предпочтительнее, и как туды Шпамить оптимальнее?
- для “белых” “белые” предпочтительнее, т.е. те, где нет заШпамленых страниц со спамом

Как лучше доры размещать - в папках или на сабдоменах?
- как удобнее. имхо некоторое количество сабдоменов, а в них некоторое количество страниц, разложенных по папках

Как лучше Шпамить доры
- по приоритетам:
каждую страницу, как можно больше
индексную страницу домена

Как лучше впихнуть в индекс дор на своем домене по низкочастотникам и сколько там сабов должно быть, чтобы он как можно дольше был в топе?
- лучше умеренным числом ссылок впихивать. сабов должно быть не очень много. опять же надо пробовать. у меня одно количество сабов на доменах, у кого-то другое и тоже устраивают.

Какое примерно время будет существовать ниша доров?
- Всегда. они будут совершенствоваться по мере совершенствования поисковиков

Что б не поднимать форумы, гостевые и т.п. в топ по запросам которым Шпамятся доры, можно в анчоре не указывать кей, а что-то типа «woowo bla», в таком случае сработают ли какие-нибудь фильтры, ведь на все страницы дора в большом кол-ве будут указывать ссылки с одинаковым анчором.
- Можно генерить случайный образом текст ссылки. Насчет фильтра: одинаковые ссылки не есть хорошо и это уже известно много лет

Какое оптимальное кол-во ссылок можно ставить на 1у страничку дора на своем домене (запросы очень не конкурентные pr топа в районе 0-3), под оптимальным имеется ввиду, что б не получить под зад каким-нибудь фильтром, который далее окажет влияние на позициях в Google.
- Фильтр на дорах - это редкость сейчас. Почти всегда сразу бан без фильтров. Оптимального числа нет, ибо все ссылки разные

Есть ли разница между доменными зонами
- Очевидно, что те зоны, где Шпама больше всего (по-моему, там .biz на первом месте), менее предпочтительны. Выяснить, что именно у тебя работает лучше всего, просто:

сделать одинаковые доры на всех доступных для регистрации зонах (дорогие можно не брать, хотя в последствие желательно попробовать) и посмотреть,
- что быстрее индексится
- что лучше индексится
- что дает больше трафа
- что дольше живет

Как лучше, с редиректом или без?
- Без

Насколько эффективен рефШпам?
- на такой вопрос не хочу отвечать. эффект есть. какой именно предлагаю проверить лично

Какова вероятность, того что дор уже отживший своё, залить на другой фрихост без изменений контента - вылезит ли он в топ после спама?
- если дор забанен, то в базе поисковика уже нет его, поэтому его копия уже не будет дублем. но все же лучше что-то менять.

Какой оптимальный вес страницы, плотность и частота ключевого слова ?
- 80к, 7%, 10

кеи в метатегах прописывать?
- Всё равно. но это не сложно ведь, поэтому лучше прописать

img в доре названый по кею и прописаный alt гуд?
- ссылку на несуществующую картинку лучше не ставить. а alt прописывать полезно - можешь в поиске по картинкам вылезать

Имеется возможность прописать линк в высокопиаристых ресурсах. Как максимально использовать эту возможность?
- поставить эти линки на более менее приличный сайт ….. раз линки хорошие, то и ресурс, который с помощью их выводится, должен быть не дурен собой.

У меня вопрос по гуглу: не попадают у меня доры в выдачу, недели 2-3 назад все нормально было ….. Индексирует нормально как раньше
- меняй шаблоны доров, обновляй базу Шпама

Где лучше брать кейворды кроме овертюры и вордтрекера
- указанных источников более чем достаточно для начала. дальше можно смотреть свою статистику (по каким запросам приходят) и статистику на ппц (по каким запросам кликают).

Что является определяющим чтобы скормить Google как можно больше страниц с одного домена?
- ссылки. на разные страницы.

Если на белый серый сайт ставить линки с доров по той же тематике. какие возможные последствия для сайта?
- в общем случае никакой. особенно, если на сайт есть нормальные линки.

Схожая тематика ссылащихся ресурсов имеет большее значение или тематичность?
- имеет

Почему Шпам по одной базе 2 раза “убивает дор”? (всмысле наступает бан)
- это не связано с двойным прогоном - просто совпадение, что банят при втором прогоне

Дай определение понятию “бонусный хост”
- бонусный - это тот хост, который по мнению оптимизаторов, легче вылезает в выдаче поисковиков. например, он может избегать попадания в песочницу

Используеш ли свои серые ресурсы для продвижения доров ?
- да

Как к многостраничным дорам поисковики относятся ?
- количество страниц ничего не меняет

Есть ли смысл перелинковывать доры между собой ? По идее быстрее в выдачу должны попасть, но и банятся сеткой …
- Да, да

По высокочастотникам или низкочастотникам работаеш?
- по всему

Wednesday, June 6, 2007

Сначалы были основы.

Как работают поисковые системы
[Раздел: Поисковая оптимизация]
В мире написаны сотнипоисковых систем, а если считать функции поиска,
реализованные в самых разных программах, то счет надо вести на тысячи. И как бы ни был реализован процесс поиска, на какой бы математической модели он не основывался,
идеи и программы, реализующих поиск, достаточно просты. Хотя эта простота, относится,
по-видимому, к той категории, про которую говорят «просто, но работает». Так или иначе, но именно поисковые системы стали одним из двух новых чудес света, предоставив
Homo Sapiens неограниченный и мгновенный доступ к информации. Первым чудом, очевидно,
можно считать Интернет как таковой, с его возможностями всеобщей коммуникации.

Поисковые системы в исторической перспективе

Существует распространенное убеждение, что каждое новое поколение программ совершенней предыдущего. Дескать,
раньше все было несовершенно, зато теперь повсюду царит чуть ли неискусственный интеллект. Иная крайняя точка зрения состоит в том, что «все новое - это хорошо забытое старое». Думаю, что применительно к поисковым системам истина лежит где-то посередине.

Но что же поменялось в действительности за последние годы?
Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика. Кроме появления фактора, невозможного в доинтернетовскую эру – фактора тотальной востребованности поисковых систем –
стала очевидна еще пара изменений. Во-первых, стало ясно, что люди не только «думают словами», но и «ищут словами». В ответе системы они ожидают увидеть слово, набранное в строке запроса. И второе: «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. Мечты 60-х – 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью.
Алгоритм + Структура данных= Поисковая система

Как и любая программа,
поисковая система оперирует со структурами данных и исполняет алгоритм. Разнообразие алгоритмов не очень велико, но оно есть. Не считая квантовых компьютеров, которые обещают нам волшебный прорыв в «алгоритмической сложности» поиска, и про которые автору почти ничего не известно, есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов,
при котором создаются вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмыинвертированных файлов, суффиксных деревьев,
сигнатур. В вырожденном случае предварительный этап индексирования отсутствует,
а поиск происходит при помощи последовательного просмотра документов. Такой поиск называетсяпрямым.
Прямой поиск

Простейшая его версия знакома многим, и нет программиста, который бы не написал хотя бы раз в своей жизни подобный код:

char* strstr(char *big, char *little)
{
char *x, *y, *z;
for (x= big; *x; x++)
{
for (y= little, z= x; *y;
++y, ++z)
{
if (*y != *z)
break;
}
if (!*y)
return x;
}
return 0;
}

В этой функции языка C текст строкиbig просматривают слева направо и для каждой позицииx запускают последовательное сравнение с искомой подстрокойlittle. Для этого, двигая одновременно два указателяy иz, попарно сравнивают все символы. Если мы успешно дошли до конца искомой подстроки, значит она найдена.

Несмотря на кажущуюся простоту, последние 30 лет прямой поиск интенсивно развивается. Было выдвинуто немалое число идей, сокращающих время поиска в разы. Эти алгоритмы подробно описаны в разнообразной литературе, есть их сводки и сопоставления. Неплохие обзоры прямых методов поиска можно найти в учебниках, например[sedgewick] или[кормен]. При этом надо учесть, что новые алгоритмы и их улучшенные варианты появляются постоянно.

Хотя прямой просмотр всех текстов – довольно медленное занятие, не следует думать, что алгоритмы прямого поиска не применяются в интернете. Норвежская поисковая система Fast (www.fastsearch.com) использовала чип, реализующий логику прямого поиска упрощенных регулярных выражений[fastpmc],
и разместила 256 таких чипов на одной плате. Это позволяло Fast-у обслуживать довольно большое количество запросов в единицу времени.

Кроме того, есть масса программ, комбинирующих индексный поиск для нахождения блока текста с дальнейшим прямым поиском внутри блока. Например, весьма популярный, в том числе и в Рунете, glimpse[glimpse].

Вообще, у прямых алгоритмов есть принципиально беспроигрышные отличительные черты. Например, неограниченные возможности по приближенному и нечеткому поиску. Ведь любое индексирование всегда сопряжено с упрощением и нормализацией терминов, а, следовательно, с потерей информации. Прямой же поиск работает непосредственно по оригинальным документам безо всяких искажений.
Инвертированный файл

Эта простейшая структура данных, несмотря на свое загадочное иностранное название, интуитивно знакома любому грамотному человеку,
так и любому программисту баз данных, даже не имевшему дело с полнотекстовым поиском. Первая категория людей знает, что это такое, по
«конкордансам» - алфавитно упорядоченным исчерпывающим спискам слов из одного текста или принадлежащих одному автору (например «Конкорданс к стихам А. С. Пушкина», «Словарь-конкорданс публицистики Ф. М. Достоевского»). Вторые имеют дело с той или иной формой инвертированного списка всякий раз, когда строят или используют «индекс БД по ключевому полю».


Чтобы сэкономить на дисковом пространстве и ускорить поиск, обычно прибегают к двум приемам. Во-первых, можно сэкономить на подробности самой позиции. Ведь чем подробнее задана такая позиции, например, в случае с «Симофонией» это «книга+глава+стих», тем больше места потребуется для хранения инвертированного файла.

В наиподробнейшем варианте в инвертированном файле можно хранить и номер слова, и смещение в байтах от начала текста, и цвет и размер шрифта, да много чего еще. Чаще же просто указывают только номер документа, скажем, книгу Библии, и число употреблений этого слова в нем. Именно такая упрощенная структура считается основной в классической теории информационного поиска – Information Retrieval
(IR).

Второй (никак не связанный с первым) способ сжатия: упорядочить позиции для каждого слова по возрастанию адресов и для каждой позиции хранить не полный ее адрес, а разницу от предыдущего. Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:

ЖЕНЩИНА: [Быт.1],[+11],[0],[+2],[+4],[+2],[+4],..

Дополнительно на разностный способ хранения адресов накладывают какой-нибудь простенький способ упаковки: зачем отводить небольшому целому числу фиксированное
«огромное» количество байт, ведь можно отвести ему почти столько байт, сколько оно заслуживает. Здесь уместно упомянуть коды Голомба или встроенную функцию популярного языка Perl: pack(“w”).

В литературе встречается и более тяжелая артиллерия упаковочных алгоритмов самого широкого спектра: арифметический, Хафман, LZW, и т.д. Прогресс в этой области идет непрерывно. На практике в поисковых системах они используются редко: выигрыш невелик, а мощности процессора расходуются неэффективно.

В результате всех описанных ухищрений размер инвертированного файла, как правило, составляет от 7 до 30 процентов от размера исходного текста, в зависимости от подробности адресации.
Занесены в «Красную книгу»

Неоднократно предлагались другие, отличные от инвертированного и прямого поиска алгоритмы и структуры данных. Это, прежде всего, суффиксные деревья[manber],[gonnet],
а также сигнатуры[faloutsos].

Первый из них функционировал и в интернете, будучи запатентованным алгоритмом поисковой ситемы OpenText[opentext]. Мне доводилось встречать суффиксные индексы в отечественных поисковых системах.

Второй - метод сигнатур - представляет собой преобразование документа к поблочным таблицамхеш-значений его слов - "сигнатуре" и последовательному просмотру "сигнатур" во время поиска.

Широкого распространения ни тот ни другой метод не получили, а, следовательно, не заслужили и подробного обсуждения в этой небольшой статье.
Математические модели

Приблизительно 3 из 5 поисковых систем и модулей функционируют безо всяких математических моделей. Точнее сказать, их разработчики не ставят перед собой задачу реализовывать абстрактную модель и/или не подозревают о существовании оной. Принцип здесь прост: лишь бы программа хоть что-нибудь находила. Абы как. А дальше сам пользователь разберется.

Однако, как только речь заходит о повышении качества поиска, о большом объеме информации, о потоке пользовательских запросов, кроме эмпирически проставленных коэффициентов полезным оказывается оперировать каким-нибудь пусть и несложным теоретическим аппаратом.Модель поиска – это некоторое упрощение реальности,
на основании которого получается формула (сама по себе никому не нужная), позволяющая программе принять решение: какой документ считать найденным и как его ранжировать. После принятия модели коэффициенты часто приобретают физический смысл и становятся понятней самому разработчику, да и подбирать их становится интересней.

Все многообразие моделей традиционного информационного поиска (IR) принято делить на три вида: теоретико-множественные (булевская, нечетких множеств, расширенная булевская), алгебраические[1]
(векторная, обобщенная векторная, латентно-семантическая, нейросетевая) и вероятностные.

Булевское семейство моделей, по сути, – первое, приходящее на ум программисту,
реализующему полнотекстовый поиск. Есть слово - документ считается найденным,
нет – не найденным. Собственно, классическая булевская модель – это мостик, связывающий теорию информационного поиска с теорией поиска и манипулирования данными.

Критика булевской модели, вполне справедливая, состоит в ее крайней жесткости и непригодности для ранжирования. Поэтому еще в 1957 году Joyce и Needham (Джойс и Нидхэм) предложили учитывать частотные характеристики слов, чтобы «... операция сравнения была бы отношением расстояния между векторами...»[joyce_1957*].Векторная модельи была с успехом реализована в 1968 году отцом-основателем науки об информационном поиске Джерардом Солтоном (Gerard Salton)[2]
в поисковой системе SMART (Salton's Magical Automatic Retriever of Text).

Ранжирование в этой модели основано на естественном статистическом наблюдении,
что чем больше локальная частота термина в документе (TF) и больше «редкость»
(т.е.обратная встречаемость в документах) термина в коллекции (IDF),
тем выше вес данного документа по отношению к термину. Обозначение IDF ввела Karen
Sparck-Jones (Карен Спарк-Джоунз) в 1972 в статье[spark-jones] проразличительную силу (term specificity). С этого момента обозначение TF*IDF широко используется как синоним векторной модели.

Наконец, в 1977 году Robertson и Sparck-Jones
(Робертсон и Спарк-Джоунз)[robertson] обосновали и реализоваливероятностную модель (предложенную еще в 1960[maron]), также положившую начало целому семейству.Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной,
«нерелевантной» части коллекции. Хотя вероятностные модели обладают некоторым теоретическим преимуществом, ведь они располагают документы в порядке убывания
"вероятности оказаться релевантным", на практике они так и не получили большого распространения.

Я не собираюсь вдаваться в подробности и выписывать громоздкие формулы для каждой модели. Их сводка вместе с обсуждением занимает в сжатом виде 35 страниц в книжке «Современный информационный поиск»[baezo-yates]. Важно только заметить, что в каждом из семейств простейшая модель исходит из предположения о взаимонезависимости слов и обладает простым условием фильтрации: документы,
не содержащие слова запроса, никогда не бывают найденными. Продвинутые («альтернативные»)
модели каждого из семейств не считают слова запроса взаимонезависимыми, а, кроме того, позволяют находить документы, не содержащие ни одного слова из запроса.
Поиск «по смыслу»

Способность находить и ранжировать документы,
не содержащие слов из запроса, часто считают признаком искусственного интеллекта или поиска по смыслу и относят априори к преимуществам модели. Вопроса, о том,
так ли это или нет мы оставим за рамками данной статьи.

Для примера опишу лишь одну, пожалуй, самую популярную модель, работающую по смыслу. В теории информационного поиска данную модель принято называтьлатентно-семантическим индексированием(иными словами, выявлением скрытых смыслов). Эта алгебраическая модель основана на сингулярном разложении прямоугольной матрицы, ассоциирующей слова с документами. Элементом матрицы является частотная характеристика, отражающая степень связи слова и документа, например,TF*IDF. Вместо исходной миллионно-размерной матрицы авторы метода[furnas],[deerwester] предложили использовать 50-150 «скрытых смыслов»[3] , соответствующих первымглавным компонентам еесингулярного разложения.

Сингулярным разложением действительной матрицы A размеров m*n называется всякое ее разложение вида A= USV, где U - ортогональная матрица размеров m*m, V - ортогональная матрица размеров n*n, S - диагональная матрица размеров m*n, элементы которой
sij= 0, если i не равно j, и sii= si>= 0. Величины si называются сингулярными числами матрицы и равны арифметическим значениям квадратных корней из соответствующих собственных значений матрицы AAT. В англоязычной литературе сингулярное разложение принято называть SVD-разложением.

Давным-давно доказано[eckart],
что если оставить в рассмотрении первыеk сингулярных чисел (остальные приравнять нулю), мы получим ближайшую из всех возможных аппроксимацию исходной матрицы рангаk (в некотором смысле ее «ближайшую семантическую интерпретацию рангаk»). Уменьшая ранг, мы отфильтровываем нерелевантные детали; увеличивая,
пытаемся отразить все нюансы структуры реальных данных.

Операции поиска или нахожденияпохожих документов резко упрощаются, так как каждому слову и каждому документу сопоставляется относительно короткий вектор изk смыслов
(строки и столбцы соответствующих матриц). Однако по причине малой ли осмысленности
«смыслов», или по какой иной[4] , но использование
LSI в лоб для поиска так и не получило распространения. Хотя во вспомогательных целях (автоматическая фильтрация, классификация, разделение коллекций, предварительное понижение размерности для других моделей) этот метод, по-видимому, находит применение.
Оценка качества

Consistency checking
has shown that the overlap of relevant documents between any two assesors is on
the order of 40% on average…cross-assesor recall and precision of about 65% …This
implies a practical upper bound on retrieval system performance of 65% …[5]
Donna Harman
What we have learned, and not learned, from TREC
[harman]

Какова бы ни была модель, поисковая система нуждается в «тюнинге» - оценке качества поиска и настройке параметров. Оценка качества –
идея, фундаментальная для теории поиска. Ибо именно благодаря оценке качества можно говорить о применимости или не применимости той или иной модели и даже обсуждать их теоретичеcкие аспекты.

В частности, одним из естественных ограничений качества поиска служит наблюдение, вынесенное в эпиграф: мнения двух «асессоров»
(специалистов, выносящих вердикт о релевантности) в среднем не совпадают друг с другом в очень большой степени! Отсюда вытекает и естественная верхняя граница качества поиска, ведь качество измеряется по итогам сопоставления с мнением асессора.

Обычно[6] для оценки качества поиска меряют два параметра:

* точность (precision) – доля релевантного материала в ответе поисковой системы
* полнота (recall) – доля найденных релевантных документов в общем числе релевантных документов коллекции

Именно эти параметры использовались и используются на регулярной основе для выбора моделей и их параметров в рамках созданной Американским Институтом Стандартов (NIST) конференции по оценке систем текстового поиска (TREC - text
retrival evaluation conference)[7]. Начавшаяся в 1992 году консорциумом из 25 групп, к 12-му году своего существования конференция накопила значительный материал, на котором до сих пор оттачиваются поисковые системы. К каждой очередной конференции готовится новый материал (т.н. «дорожка») по каждому из интересующих направлений. «Дорожка» включает коллекцию документов и запросов. Приведу примеры:

* Дорожка произвольных запросов (ad hoc) – присутствует на всех конференциях
* Многоязычный поиск
* Маршрутизация и фильтрации
* Высокоточный поиск (с единственным ответом, выполняемый на время)
* Взаимодействие с пользователем
* Естестственно-языковая
«дорожка»
* Ответы на «вопросы»
* Поиск в «грязных» (только что отсканированных)
текстах
* Голосовой поиск
* Поиск в очень большом корпусе (20GB,
100GB и т.д.)
* WEB корпус (на последних конференциях он представлен выборкой по домену .gov)
* Распределенный поиск и слияние результатов поиска из разных систем

Не только поиск

Как видно из «дорожек» TREC,
к самому поиску тесно примыкает ряд задач, либо разделяющих с ним общую идеологию
(классификация, маршрутизация, фильтрация, аннотирование), либо являющихся неотъемлемой частью поискового процесса (кластеризация результатов, расширение и сужение запросов,
обратная связь, «запросо-зависимое» аннотирование, поисковый интерфейс и языки запросов). Нет ни одной поисковой системы, которой бы не приходилось решать на практике хотя бы одну из этих задач.

Зачастую наличие того или иного дополнительного свойства является решающим доводом в конкурентной борьбе поисковых систем. Например,
краткие аннотации состоящие из информативных цитат документа, которыми некоторые поисковые системы сопровождают результаты соей работы, помогают им оставаться на полступеньки впереди конкурентов.

Обо всех задачах и способах их решения рассказать невозможно. Для примера рассмотрим «расширение запроса», которое обычно производится через привлечение к поиску ассоциированных терминов. Решение этой задачи возможно в двух видах – локальном (динамическом) и глобальном (статическом). Локальные техники опираются на текст запроса и анализируют только документы, найденные по нему. Глобальные же «расширения» могут оперировать тезаурусами, как априорными
(лингвистическими), так и построенными автоматически по всей коллекции документов. По общепринятому мнению, глобальные модификации запросов через тезаурусы работают неэффективно, понижая точность поиска. Более успешный глобальный подход основан на построенных вручную статических классификациях, например, ВЕБ-директориях. Этот подход широко используется в интернет-поисковиках в операциях сужения или расширения запроса.

Нередко реализация дополнительных возможностей основана на тех же самых или очень похожих принципах и моделях, что и сам поиск. Сравните,
например, нейросетевую поисковую модель, в которой используется идея передачи затухающих колебаний от слов к документам и обратно к словам (амплитуда первого колебания – все тот же TF*IDF), с техникой локального расширения запроса. Последняя основана наобратной связи (relevance feedback), в которой берутся наиболеесмыслоразличительные(контрастные) слова из документов, принадлежащих верхушке списка найденного.

К сожалению, локальные методы расширения запроса, несмотря на эффектные технические идеи типа «Term Vector Database»[stata] и очевидную пользу, все еще остаются крайне «дорогим»[8]
удовольствием.
Лингвистика

Немного в стороне от статистических моделей и структур данных стоит класс алгоритмов, традиционно относимых к лингвистическим. Точно границы между статистическим и лингвистическими методами провести трудно. Условно можно считать лингвистическими методы, опирающиеся на словари (морфологические,
синтаксические, семантические), созданные человеком. Хотя считается доказанным,
что для некоторых языков лингвистические алгоритмы не вносят существенного прироста точности и полноты (например, английский)[strzalkowski], все же основная масса языков требует хотя бы минимального уровня лингвистической обработки. Не вдаваясь в подробности, приведу только список задач, решаемый лингвистическими или окололингвистическими приемами:

* автоматическое определение языка документа
* токенизация (графематический анализ): выделение слов, границ предложений
* исключение неинформативных слов (стоп-слов)
* лемматизация(нормализация,стемминг): приведениесловоизменительных форм к «словарной». В том числе и для слов, не входящих в словарь системы
* разделение сложных слов (компаундов) для некоторых языков (например, немецкого)
* амбигуация:
полное или частичное снятиенимии
* выделениенных групп

Еще реже в исследованиях и на практике можно встретить алгоритмывообразовательного,таксического и дажеантического анализа. При этом под семантическим анализом чаще подразумевают какой-нибудь статистический алгоритм (LSI, нейронные сети), а если толково-комбинаторные или семантические словари и используются,
то в крайне узких предметных областях.
Поиск в вебе

“Things that work well on TREC often do not produce good results on the web
... Some argue that on the web, users should specify more accurately what they
want and add more words to their query. We disagree vehemently with this position.
If a user issues a query like "Bill Clinton" they should get reasonable results
since there is a enormous amount of high quality information available on this
topic”[9]
Sergei Brin, Larry Page
The Anatomy of a Large-Scale Hypertextual Web Search Engine [*]
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm
"I was struck when a Google person told me at SIGIR that the most recent
Google ranking algorithm completely ignores anything discovered at TREC, because
all the good Ad Hoc ranking algorithms developed over the 10 years of TREC get
trashed by spam"[10]
Mark Sanderson[*]
http://groups.yahoo.com/group/webir/message/710

Пора вернуться к теме, с которой началась эта статья: что же изменилось поисковых системах за последнее время?

Прежде всего, стало очевидно, что поиск в вебе, не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т.п.) одного лишь текста документа. Ведьвнетекстовые (off-page) факторы играют не меньшую,
а порой и бoльшую роль, чем текст самой страницы. Положение на сайте, посещаемость,
авторитетность источника, частота обновления, цитируемость страницы и ее авторов
– все эти факторы невозможно сбрасывать со счета.

Cтав основным источником получения справочной информации для человеческого вида, поисковые системы стали основным источником трафика для интернет-сайтов. Как следствие, они немедленно подверглись «атакам» недобросовестных авторов, желающих любой ценой оказаться в первых страницах результатов поиска. Искусственная генерациявходных страниц,
насыщенных популярными словами, техникаклоакинга, «слепого текста» и многие другие приемы, предназначенные для обмана поисковых систем, мгновенно заполонили Интернет.

Кроме проблемы корректного ранжирования, создателям поисковых систем в Интернете пришлось решать задачу обновления и синхронизации колоссальной по размеру коллекции с гетерогенными форматами, способами доставки, языками, кодировками,
массой бессодержательных и дублирующихся текстов. Необходимо поддерживать базу в состоянии максимальной свежести (на самом деле достаточно создаватьиллюзию свежести - но это тема отдельного разговора), может быть учитывать индивидуальные и коллективные предпочтения пользователей. Многие из этих задач никогда прежде не рассматривались в традиционной науке информационного поиска.

Для примера рассмотрим пару таких задач и практических способов их решения в поисковых системах для интернета.
Качество ранжирования

Не все внетекстовые критерии полезны в равной мере. Именно ссылочная популярность и производные от нее оказались решающим фактором, поменявшим в 1999-2000 мир поисковых систем и вернувший им преданность пользователей. Так как именно с ее помощью поисковые системы научились прилично и самостоятельно (без подпорок из вручную отредактированных результатов)
ранжировать ответы на короткие частотные запросы, составляющие значительную часть поискового потока.

Простейшая идея глобального (т.е. статического) учета ссылочной популярности состоит в подсчете числа ссылок, указывающих на страницы. Примерно то, что в традиционном библиотековедении называютиндексом цитирования. Этот критерий использовался в поисковых системах еще до 1998 года. Однако он легко подвергаетсянакрутке, кроме того, он не учитывает вес самих источников. Естественным развитием этой идеи можно считать предложенный Брином и Пейджем в 1998 году алгоритмPageRank[brin] – итеративный алгоритм, подобный тому, что используется в задаче определения победителя в шахматной турнире по швейцарской системе. В сочетании с поиском по лексике ссылок, указывающих на страницу
(старая, весьма продуктивная идея, которая использовалась в гипертекстовых поисковых системах еще в 80-е годы), эта мера позволила резко повысить качество поиска.

Немного раньше, чем PageRank, был предложен локальный (т.е. динамический,
основанный на запросе) алгоритм учета популярности – HITS[kleinberg],
который[11] не используется на практике в основном из-за вычислительной дороговизны. Примерно по той же причине, что и локальные (т.е. динамические) методы, оперирующие словами.

Оба алгоритма,
их формулы, условия сходимости подробно описаны, в том числе и в русскоязычной литературе. Отмечу только, что расчетстатической популярности не является самоценной задачей, он используется в многочисленных вспомогательных целях: определение порядка обхода документов, ранжирование поиска по тексту ссылок и т.д. Формулы расчета популярности постоянно улучшают, в них вносят учет дополнительных факторов:
тематической близости документов (например, популярная поисковая системаwww.teoma.com),
их структуры, и т.п., позволяющие понизить влияниенепотизма. Интересной отдельной темой является эффективная реализация соответствующих структур данных[bharat]
Качество индекса

Хотя размер базы в интернете на поверхностный взгляд не кажется критическим фактором, это не так. Недаром рост посещаемости таких машин, как Google и Fast хорошо коррелируют именно с ростом их баз. Основная причины: «редкие» запросы, то есть те, по которым находится менее 100 документов, составляют в сумме около 30% от всей массы поисков – весьма значительную часть. Этот факт делает размер базы одним из самых критичных параметров системы.

Однако рост базы, кроме технических проблем с дисками и серверами, ограничивается логическими: необходимостью адекватно реагировать на мусор, повторы и т.п. Не могу удержаться, чтобы не описать остроумный алгоритм, применяемый в современных поисковых системах для того, чтобы исключить «очень похожие документы».

Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; может содержать переменные вставки – рекламу или текущую дату.

Широкий класс документов в вебе активно копируется и редактируется
– ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т.д. Популярные типы изменений:
корректура, реорганизация, ревизия, реферирование, раскрытие темы и т.д. Наконец,
публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.

Кроме того, индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber
(Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею[manber1994], а Andrei Broder (Андрей Бродер)
в 1997[broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.


Рис.2

Для каждого десятисловия текста рассчитывается контрольная сумма
(шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на,
скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п. Этот изящный алгоритм воплотил давнюю мечту доцентов: отныне мучительный вопрос «у кого студент списывал этот курсовик» можно считать решенным! Легко оценить долю плагиата в любой статье[12].

Чтобы у читателя не создалось впечатление, что информационный поиск исключительнозападная наука, упомяну про альтернативный алгоритм определенияпочти-дубликатов, придуманый и воплощенный у нас в Яндексе[ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертировнного файла
(илиинвертировнным индексом) и этот факт удобно использовать в процедуре нахождения почти-дубликатов.
Цена одного процента

Архитектурно современные поисковые системы представляют собой сложные многокомпьютерные комплесы. Начиная с некоторого момента по мере роста системы основная нагрузка ложится вовсе не на робота, а на поиск. Ведь в течение секунды приходит десятки и сотни запросов.

Для того, чтобы справиться с этой проблемой, индекс разбивают на части и раскладывают по десяткам, сотням и даже тысячам компьютеров. Сами компьютеры,
начиная с 1997 года (поисковая система Inktomi) представляют собой обычные 32-битные машины (Linux, Solaris, FreeBSD, Win32) с соответствующими ограничениями по цене и производительности. Исключением из общего правила осталась лишь AltaVista, которая с самого начала использовала относительно «большие» 64-битные компьютеры Alpha.

Поисковые системы для Интернета (и, вообще, все большие поисковые сиcтемы)
могут ускорять свою работу при помощи техникэшелонирования ипрюнинга. Первая техника состоит в разделении индекса на заведомо более релевантную и менее релевантную части. Поиск сначала выполняется в первой, а затем, если ничего не найдено, или найдено мало, поисковая система обращается ко второй части индекса.
Pruning (от англ. отсечение, сокращение), состоит в том, чтобы динамически прекращать обработку запроса после накопления достаточного количества релевантной информации. Бывает еще статический pruning, когда на основании некоторых допущений индекс сокращается за счет таких документов, которые заведомо никогда не будут найдены.

Отдельная проблема – организовать бесперебойную работу многокомпьютерных комплесов, бесшовное обновление индекса, устойчивость к сбоям и задержкам с ответами отдельных компонент. Для общения между поисковыми серверами и серверам, собирающими отклики и формирующими страницу выдачи разрабатываются специальные протоколы.

Заметьте, что один процент производительности (скажем неудачно написанный оператор в каком-нибудь цикле) для десятитысячнокомпьютерной[13]
системы стоит примерно ста компьютеров. Поэтому, можно себе представить, как вычищается код, отвечающий за поиск и ранжирование результатов, как оптимизируется использование всех возможных ресурсов: каждого байта памяти, каждого обращения к диску.

Решающее значение приобретает продумывание архитектуры всего комплекса с самого начала,
так как любые изменения, например добавление необычного фактора при ранжировании или сложного источника данных, становится исключительно болезненной и сложной процедурой. Очевидно, системы стартующие позже, имеют в это ситуации преимущество. Но инертность пользователей весьма высока, так, например, требуется 2-4 года,
чтобы сформированная многомиллионная аудитория сама, пусть и медленно, но перешла на непривычную поисковую систему, даже при наличии у нее неоспоримых преимуществ. В условиях жесткой конкуренции, это порой неосуществимо.

Saturday, June 2, 2007

Best Comment Spam Ever =))))) LOL

http://dekstop.de/weblog/2007/05/you_are_sure/

Best Comment Spam Ever

IP Address: xx.xx.xx.xx
Name: PreobrajenskySuka1
Email Address:
URL: http://university-of-phoen0.blogspot.com/

Comments:

Sorry, but topic starter, you are sure?
prof.Preobrajensky.
Good luck!

Monday, May 21, 2007

Saturday, May 19, 2007

И все таки они тоже падают ))

http://www.google.com/errors/asfe/system_down.html

The Google AdSense website is temporarily unavailable. Please try back later.
We apologize for any inconvenience.


Google AdSense の web サイトは一時的にご利用いただけません。後で再度お試しくださいますようお願いいたします。
お手数をおかけいたしますことをお詫びいたします。

Die Google AdSense-Website ist vorübergehend nicht verfügbar. Bitte versuchen Sie es später noch einmal.
Wir entschuldigen uns für eventuell enstandene Unannehmlichkeiten.

Le site Google AdSense est temporairement indisponible. Veuillez réessayer plus tard.
Nous vous prions de nous excuser pour le désagrément occasionné.

El sitio web de AdSense de Google no se encuentra disponible en estos momentos. Por favor, inténtelo de nuevo más tarde.
Disculpe las molestias.

Google AdSense 网站暂时无法浏览。请您稍候再尝试。
对于造成您的不便我们感到抱歉。

Il sito AdSense di Google è temporaneamente non disponibile. La preghiamo di provare più tardi.
Ci scusiamo per il disagio.

De website van Google AdSense is tijdelijk niet beschikbaar. Probeert u het later opnieuw.
Onze excuses voor het eventuele ongemak.

Google AdSense Sayfası geçici olarak hizmet dışıdır. Lütfen, daha sonra tekrar deneyin.
Bu geçici sorundan dolayı özür dileriz.

O site do Google AdSense não está disponível no momento. Tente novamente mais tarde.
Pedimos desculpas pelo inconveniente.

The Google AdSense website is temporarily unavailable. Please try back later.
We apologise for any inconvenience.

Witryna programu Google AdSense jest chwilowo niedostępna. Prosimy spróbuj później.
Przepraszamy za wszelkie niedogodności.

Веб-сайт Google AdSense временно недоступен. Попробуйте, пожалуйста, еще раз через несколько минут.
Мы приносим свои извинения за причиненные неудобства.

Google AdSense webbplats är för tillfället inte tillgänglig. Försök igen senare.
Vi ber om ursäkt för eventuellt besvär.

Google AdSense-webstedet er ikke tilgængeligt i øjeblikket. Prøv igen senere.
Vi beklager ulejligheden.

Google AdSense 웹사이트를 일시적으로 사용하실 수 없습니다 . 나중에 다시 시도해 보십시오 .
불편을 끼쳐드려 죄송합니다 .

Google AdSense-webområdet er midlertidig utilgjengelig. Prøv igjen senere.
Vi beklager eventuelle problemer dette medfører.

Google AdSense 網站暫時無法瀏覽。請您稍候再嘗試。
對於造成您的不便我們感到抱歉。

A Google AdSense oldal jelenleg nem elérhető. Kérjük, látogasson vissza később.
Elnézést kérünk az esetleges kellemetlenségekért.

Google AdSense –sivusto ei väliaikaisesti ole saatavilla. Yritä myöhemmin uudelleen.
Pahoittelemme tämän aiheuttamaa hankaluutta.

Stránka Google AdSense je dočasně nedostupná. Zkuste to později.
Omlouváme se za způsobené nepříjemnosti.

Stránka Google AdSense je dočasne nedostupná. Skúste neskôr, prosím.
Ospravedlňujeme sa za spôsobené nepríjemnosti.

Google AdSense sučelje trenutno je nedostupno. Molimo Vas pokušajte kasnije.
Ispričavamo se za neugodnosti.

إن موقع Google AdSense غير متوفر وقتيا. يرجى تكرار المحاولة لاحقا. نعتذر عن أي إزعاج.

אתר Google AdSense איננו זמין כרגע. אנו מצטערים על אי הנוחות. אנא נסה שנית מאוחר יותר.

Google AdSense уебсайта е временно недостъпен. Моля опитайте по-късно. Извиняваме се за неудобството.

Η ιστοσελίδα του Google AdSense δεν είναι διαθέσιμη προς το παρόν. Παρακαλώ δοκιμάστε αργότερα. Ζητούμε συγγνώμη για την ενόχληση.

Правильный распорядок дня =)

Thursday, May 17, 2007

Треп по теме.

http://webplanet.ru/column/business/androsov/2007/05/15/comments/optimization.html

TOP-25 =)

Top-25 Countries
Where Comment Spammers
Are Located:


#1 [United States] United States (24.1%)
#2 [Russian Federation] Russian Federation (10.6%)
#3 [Korea] Korea (9.2%)
#4 [Japan] Japan (8.9%)
#5 [China] China (5.9%)
#6 [Brazil] Brazil (4.9%)
#7 [India] India (3.9%)
#8 [Germany] Germany (3.3%)
#9 [Canada] Canada (2.9%)
#10 [Hong Kong] Hong Kong (2.1%)
#11 [United Kingdom] United Kingdom (2.0%)
#12 [France] France (1.8%)
#13 [Argentina] Argentina (1.6%)
#14 [Ukraine] Ukraine (1.4%)
#15 [Poland] Poland (1.2%)
#16 [Spain] Spain (1.0%)
#17 [Sweden] Sweden (1.0%)
#18 [Australia] Australia (0.9%)
#19 [Malaysia] Malaysia (0.9%)
#20 [Taiwan] Taiwan (0.8%)
#21 [Italy] Italy (0.7%)
#22 [Romania] Romania (0.7%)
#23 [Czech Republic] Czech Republic (0.6%)
#24 [Bulgaria] Bulgaria (0.6%)
#25 [Netherlands] Netherlands (0.6%)

Project Honey Pot Begins Tracking Comment Spammers

We began Project Honey Pot more than two years ago to track one kind of malicious robots: email harvesters. Since then, a new malicious robot has appeared to terrorize bloggers, forum administrators, and search engines: comment spammers. These robots travel the internet leaving links to spamvertised web pages in order to drive traffic and increase their search engine rankings. Today we're announcing that Project Honey Pot is tracking comment spammers as a first step in stopping them.

По русски: хонепот, сука, хитрая приманка, размещение ссылки в которой будет приравниваться к 100% детекции спама.
ПРОТИВ:Клиента уговаривают продвигаться по десятку самых популярных слов
ЗА:И будут уговаривать, пока поисковик говорит в своей статистике: «Опаньки, по этому запросу к вам придет 100 человек, а по этому 10», у клиента и без уговоров будет «чесаться» продвигаться по самым конкурентным запросам.

Средства: армады роботов
* Собственные регистраторы доменов
* Дешёвая и массовая рабочая сила
* Сайт с доменом 6-7 долларов
* Системы автоматического управления множеством ссылок
* Автоматические генераторы массы “естественного” контента

Мы за:
Я честно не понимаю, в чем «бесплодность» и «неразумность» этих попыток? Уже сегодня у многих даже не стоит вопрос в определении того, что же такое релевантность с точки зрения, например, Яндекса или Рамблера. Вопрос стоит лишь в ресурсах для обеспечения этой самой релевантности, не более того. И в надежде, что некоторые поисковики, не будем показывать пальцем, наконец-то, сделают свою работу, ну хотя бы стабильной, и не будут «на живую» проводить обновление парка машин. (Google – лапа! Мы с тобой!, учим твои патенты, как католики – Библию). Анализ алгоритмов поисковиков, например, для нас – вчерашний день. Там все! все! необходимое для продвижения уже понятно. Сегодняшний день – это построение моделей, позволяющих прогнозировать будущие изменения поисковых алгоритмов и реагировать на эти изменения быстрее, чем будет нанесен ущерб клиентам. Задача хотя и сложная, но куда проще, чем прогнозирование, например, погоды, не говоря о расшифровке генома человека. Мы, кстати, платим своим «ученым» куда больше, чем структуры, «повернутые» на геноме и идее вечной жизни без болезней.

Сначала я хотел написать: «И ХРЕН С НИМ! НЕ СТРАШНО» Но официальная версия такая: лично я считаю, что поисковая машина не более чем бизнес, призванный выплачивать вовремя зарплату своим сотрудникам, налоги своему государству и дивиденды своим учредителям. Теперь вопрос: «Если выдача поисковой машины слишком! (т.е. удовлетворяет пользователей на 100%) релевантна, будут ли пользователи покупать контекстную рекламу?» Второй вопрос: «А что, если выдача слишком нерелевантна? Останутся ли пользователи с этой поисковой машиной?»
Чем плоха «оптимизаторщина», помогающая поисковику показывать релевантный контент на запросы его пользователей? Не тем ли, что у поисковика вдруг начинают хуже покупать контекстную рекламу? А что до этого пользователям? Подумаешь, ну не заработали несколько компаний 100 миллионов долларов, зато заработали другие…
Про дорвеи я тихо молчу, задыхаясь смехом сквозь слезы, (потому что некоторые дорвеи! размещают рекламу самих поисковых систем, пуская еще раз по кругу их же трафик, т.е. фактически, борясь с ними поисковая система рубит сук, на котором сидит). Шучу… Дорвеи хороши, когда по какому-нибудь низкочастотнику в случае их отсутствия поисковая система показывает: «Не найдено ни одного документа, соответствующего запросу»

Любая попытка упорядочить спонтанно возникающий (недетерминированный) хаос (читай, интернет) порождает со стороны этого хаоса сильнейшую защитную реакцию. Вспоминаем историю: Византия, фашисткая Германия, Open Source, визит ОБЭП. НА КАЖДОЕ действие со стороны «контролирующего порядка» находится ответ; по словам В.В., лучше, когда он ассиметричный. И у этой борьбы нет ни начала, ни конца – это природное явление, порождающее, как мне хотелось бы думать, в конечном итоге, прогресс.

Включаю тухлый «официальный тон», йё: На замечание своего «коллеги» хочется процитировать В. Высоцкого:

Уважаемый редактор!

Может лучше про реактор?

Про любимый лунный трактор?..

Ведь нельзя же год подряд -

То тарелками пугают,

Дескать, подлые, летают,

То у вас собаки лают,

То руины говорят.



Оптимизаторы – «варвары у ворот» поисковых систем, точно такие же, как и компании, занимающиеся новыми видами топлива, варвары у ворот добытчиков углеводородов. Мы кажемся опасными, потому что иногда наши действия идут вразрез с их интересами. Но направлены ли наши действия против пользователей? КОНЕЧНО, НЕТ! Потому что КТО, как не наш клиент, БОЛЬШЕ ВСЕХ, заинтересован в том, чтобы ЕГО САЙТ наконец-то нашли. Кто платит НАМ за то, что мы «обеспечиваем сопротивление» стандартному поведению поисковика? Кто, как не мы, В ПЕРВУЮ ОЧЕРЕДЬ борется с дорвеями, поднимая в выдачу адекватные сайты? Кто как не мы, заставляет поисковые системы шевелить мозгом и разрабатывать все новые и новые «виды ранжирования» и «показа результатов»? И кто, как не мы, прикрывает их задницы, когда у них случается очередной технический эксперимент и вся выдача вдруг оказывается заполненной мусором: ведь это мы объясняем сотням людей, что «все в порядке», «все скоро наладится», неся свет знания о поисковиках в массы? И кто же в итоге хочет мифической, не существующей справедливости? Студент-линкатор, получивший за продвижение сайта 1000 долларов и осчастливленный этим до небес? Вряд ли.

FUCKYOUGOOGLE

Google may provide a special form for paid link reports at some point, but in the mean time, here’s a couple of ways that anyone can use to report paid links:
- Sign in to Google’s webmaster console and use the authenticated spam report form, then include the word “paidlink” (all one word) in the text area of the spam report. If you use the authenticated form, you’ll need to sign in with a Google Account, but your report will carry more weight.
- Use the unauthenticated spam report form and make sure to include the word “paidlink” (all one word) in the text area of the spam report.

Tuesday, May 15, 2007

"Черная пятница"

18 мая 2007 г. более блоггер заблочил 1200 блогов. Белых блогов.....

Sunday, April 29, 2007

Monday, April 23, 2007

Американцы обнаружили у бабуинов способность к программированию


Американские исследователи обнаружили у высших приматов способности к работе с компьютером. На основании результатов исследования они даже предсказывают, что в течение десяти лет большинство примитивных операций в программировании или при тестировании программ будут выполняться обезьянами. Об этом говорится в пресс-релизе компании Primate Programming Inc.

Доктор Джеймс МакОлифф из Стэмфордской зоологической школы провел ряд экспериментов по обучению бабуинов работе с переносными персональными компьютерами.

"Бабуины и шимпанзе вполне могут работать с компьютерами, заниматься тестированием программного обеспечения и даже программировать. Правда у них возникают некоторые трудности со сложноструктурированными меню. Если в меню больше двух уровней, то для бабуина оно уже представляет сложность", - говорит МакОлифф.

Настойчивым ученым удалось решить и эту проблему. МакОлифф выяснил, что если показать бабуину, что многоуровневое меню ведет к некой заветной картинке, то самец бабуина способен осознать и запомнить до семи уровней в меню.

После простейшего курса по работе с Windows, бабуинам было предложено ознакомиться с новейшими достижениями в области программного обеспечения. Бабуины были потрясены и озадачены программами Java IDE, SunONE и Visual Age. Ни один из бабуинов так и не смог освоить язык программирования Java.

Однако большинство бабуинов с легкостью освоило язык программирования Visual Basic 3.0. Бабуины смогли самостоятельно менять программные настройки и даже редактировать параметры атрибутов файлов. Некоторые исследователи заявили, что Visual Basic слишком прост для бабуинов. Они настаивают на том, чтобы обезьяны прошли еще один курс обучения Java-программированию. Однако у большинства бабуинов и шимпанзе любые компоненты Java, по словам ученых, вызывают стресс.

МакОллиф также обнаружил, что бабуины выступают против политики "открытого кода". Как только бабуин становится способен нажимать нужные клавиши на клавиатуре лэптопа или пользоваться сложными меню, его социальный статус среди сородичей резко возрастает. Свои знания бабуины охраняют от соперников с помощью кулаков.

Выводы исследования, проведенного МакОллифом, уже вызвали ажиотаж среди разработчиков программного обеспечения. Несколько крупных компаний, по данным сайта, уже объявили о том, что будут финансировать дальнейшие исследования в этой области.

Р.S. Положительные результаты могут серьезно уменьшить расходы этих компаний на содержание низкоквалифицированных программистов, занимающихся тестированием новых продуктов.

Sunday, April 22, 2007

Спам-фермы в социальных СМИ

Спам-фермы в социальных СМИ

Расширение блогосферы и появление социальных СМИ не прошло незамеченным для спамеров. Они сразу оценили возможности простой генерации контента, покупки ссылок и продвижения спам-ресурсов в поисковиках и других системах агрегации.

Первой под удар попала блогосфера: там появилось огромное количество мусора. Например, по статистике сервиса Automattic Kismet, около 93% всех комментариев в блогах созданы спамерами. На сайтах с высоким рейтингом спамеры создают дорвеи, которые раскручиваются через спамерские блоги. Цель — как можно выше поднять дорвеи в поисковых результатах и перенаправить пользователей на главный сайт, который приносит прибыль от контекстной рекламы (схема).

Теперь та же напасть добралась до социальных СМИ, где недавно было замечено несколько случаев спама.

Например, неделю назад заметка с рецептами похудания для компьютерщиков поднялась в пятерку самых популярных новостей на первой странице Digg. Заметка действительно интересная и толковая, если бы не одно «но»: целевой текст располагается на сайте i-dentalresources.com, который совершенно явно оптимизирован на поисковые запросы по стоматологии. То есть владельцы сайта специально разместили у себя такой материал, чтобы получить высокорейтинговую ссылку с Digg. Фактически, они превратили Digg в дорвей.

Кстати говоря, владелец стоматологического сайта (или его сообщник) разместил ссылку на этот текст и в других социальных СМИ. Один и тот же юзер-новичок pindarev опубликовал эту ссылку на Newsvine, а также на Reddit и на del.icio.us.

Небольшое расследование показало, что домен с блогом о стоматологии зарегистрирован на некоего гражданина Бангладеш, который, к тому же, пользуется услугами сервиса eBizzSol. Этот сервис специализируется на SEO-оптимизации, в том числе предоставляет услуги автоматической генерации контента. Их интерес к теме стоматологии совсем неудивителен, если учесть, что это чуть ли не самые дорогие ссылки в системах контекстной рекламы Google AdSense. Например, за один переход по ссылке «отбеливание зубов» рекламодатели платят более $18.

Что будет дальше?

Вполне можно предположить, что аккаунты с высокой репутацией (кармой) в социальных СМИ скоро станут объектом купли-продажи, как это давно происходит, например в World of Warcraft и других многопользовательских онлайновых играх, где торговля персонажами приобрела массовый характер. Даже на аукционе eBay можно найти подходящий аккаунт, а разработчики игры ничего не могут с этим сделать.

Если социальные СМИ не смогут противостоять спаму, то это может привести к тому, что они будут оштрафованы в поисковых результатах либо вовсе исключены из индексов крупнейших поисковых систем.

Friday, April 20, 2007

VIP 1,48 под WINDOWS!

Использование многопоточности скрипта в Windows (XP,Server 2003).

Сегодня мы узнаем как использовать Violent Infinity Power v 1.48 by Nulled.WS на Win платформах.

Из инструментов потребуется - notepad.

1. Создаем файл - проект., заполняем все поля формы (master.php) и сохраняем. Потоков задайте - 10 ( для теста )
2. Теперь создадим go.bat файл в папке с VIP'ом:
вот такого содержания:

rem: c:/Vwin/php.exe - заменить на свой путь
rem: test - это имя конфига ( заменить на свой )
rem: остальное не менять.
rem: тут для теста 10 потоков сделано.
del log*.html
del now*.html
del tech*.html
del thre*.txt
DEL stop*.*
cls
ECHO pROCESS BEGIN . . .

start /b c:/Vwin/php.exe -f slave.php test 1
start /b c:/Vwin/php.exe -f slave.php test 2
start /b c:/Vwin/php.exe -f slave.php test 3
start /b c:/Vwin/php.exe -f slave.php test 4
start /b c:/Vwin/php.exe -f slave.php test 5
start /b c:/Vwin/php.exe -f slave.php test 6
start /b c:/Vwin/php.exe -f slave.php test 7
start /b c:/Vwin/php.exe -f slave.php test 8
start /b c:/Vwin/php.exe -f slave.php test 9
start /b c:/Vwin/php.exe -f slave.php test 10


Незабудьте сохранить файл!
3. Собственно старт go.bat
P.S. В taskManager должно появиться 10 php.exe процессов.
PSS. Остановить скрипт можно из его админки - STOP.

Удобство и функциональность.

Google =)

Google лидирует на поисковом рынке США

Более 40% всех поисковых запросов в США были выполнены Google, который оставил далеко позади все остальные поисковики. Такие данные предоставила аналитическая компания comScore Networks на основе исследования американского поискового рынка в ноябре 2005 года.

Поисковой системе Yahoo, которая занимает второе место, принадлежит 29,5% всех запросов в отчетном периоде, сообщает Info World. В 2004 году Google также занимала позиции лидера, а за ним следовала Yahoo. Таким образом, за год Google удалось увеличить свою долю на рынке США на 5,2%, в то время как доля Yahoo выросла на 2,5%.

На третьем месте, по данным comScore Networks, находится Microsoft, чья рыночная доля сократилась с 16% до 14,2%. На четвертой строке удерживается поисковик AOL, принадлежащий компании Time Warner, его доля также уменьшилась с 9,1% год назад до 8,7% в ноябре этого года. Наконец, пятерку лидеров замыкает поисковая система Ask Jeeves, владеет которой компания InterActiveCorp. Ее доля выросла за год на 1% и достигла 6,5% американского поискового рынка.

Всего в ноябре прошлого года жителями США было сделано 5,15 миллиарда поисковых запросов, что на 9% превышает показатели 2004 года.

RSS

RSS В ПРОДВИЖЕНИИ САЙТА

Сейчас можно сказать, что термин "RSS" уже прочно вошел в нашу повседневную жизнь. Никто не удивляется иконкам с надписями "RSS 2.0", ссылкам Feed, многие успешно пользуются программами агрегаторами и встроенной функциональностью Mozilla FireFox и Opera. Что же на самом деле означает эта звучная аббревиатура? Как RSS-потоки могут помочь в продвижении сайтов и веб-сервисов?

Определение RSS

RSS - семейство XML форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п.
Википедия

Версии RSS, RSS и Atom

Не будем углубляться в историю создания и развития формата RSS, подробную информацию об этом несложно найти хотя бы в Википедии). Важно знать, что существует две ветки одного и того же стандарта: RSS 0.9x, она же 1.0, и RSS 2.0. Последний является наиболее популярным, по крайней мере в русскоязычной части сети.

Конкурирующим форматом называют Atom, на который делает упор Google в своих сервисах, например Blogger и GMail. Как правило, большинство популярных "движков" и сервисов дают возможность получить потоки в нескольких форматах. Тот же WordPress, на котором в настоящее время создается подавляющее большинство блогов в рунете, позволяет получить потоки в различных версиях RSS, Atom, даже RDF, но в большинстве вариантов дизайна оставляют ссылку только на RSS 2.0.

Итак, если система позволяет получать потоки, то в нескольких вариантах, если же нет, то проще всего создать поток в RSS 2.0, что многие и делают.

Спецификация RSS 2.0

На спецификации формата мы тем более не будет останавливаться. Хотя количество тегов в RSS меньше, чем тегов HTML, их все-таки достаточно много, чтобы помнить все. Да и не о создании RSS-потока мы говорим, а о применении RSS в продвижении сайта.

Остановимся подробнее на тех тегах элементов (items) потока, содержимое которых должно формироваться из данных сайта.

  • Тег title - заголовок сообщения. Если мы экспортируем новости, то сюда попадает заголовк новости.
  • Тег link - адрес страницы с сообщением (новостью).
  • Тег pubDate - дата публикации сообщения, следует обратить внимание, что регистр в теге имеет значение
  • Тег description - краткое описание сообщения, по идее сюда должно попадать краткое описание (новостной бриф), но на практике все получается несколько иначе.
  • Тег category - категория, куда следует относить новость, если на сайте публикуются не новости одного направления.
Все остальные теги использовать необязательно, хотя упускать их из внимания не стоит. В стандарте указано, что все теги в item являются необязательными (пост скриптум), но должен присутствовать один из элементов title или description.

Только ли новости?

Да, только ли новостной контент следует анонсировать через RSS? На самом деле нет. Любые более-менее регулярные обновления можно анонсировать с помощью RSS. Это могут быть новые статьи, темы и сообщения на форумах и в гостевых книгах, прогнозы погоды, наконец! Не так давно ресурс GisMeteo.Ru начал выкладывать прогнозы погоды на ближайшие двое суток, за что автор им безмерно благодарен! Иногда "сбоят" сами прогнозы, но тут уже претензии не к RSS.

Продвижение RSS

Что должен знать про RSS-фиды человек, который занимается проектированием или продвижением сайтов?

Встроено в браузер

Популярные на сегодняшний день браузеры Firefox и Opera имеют встроенные средства для подписки на RSS-потоки, которые дают возможность затем просматривать заголовки свежих материалов. В 7-ой версии Internet Explorer, по слухам, такое встроенное средство также имеется. Чтобы при посещении сайта такими браузерами в них появлялся заветный значок, RSS-поток должен быть соответствующим образом указан в коде страниц сайта, а именно:

или

Оффлайн агрегаторы

Оффлайн агрегаторы - обычные локальные программы на компьютере пользователя, для удобства добавления в них ссылки на поток достаточно разместить на страницах сайта ссылку на RSS. Чаще всего такие ссылки снабжаются соответствующими иконками с текстом "RSS 2.0", "XML feed", "Atom 0.3" и аналогичными.

Онлайн агрегаторы

В качестве примера онлайн-агрегатора мы приведем сервис Яндекс.Лента, в русскоязычной части сети это наиболее известный сервис. Существует несколько аналогичных западных сервисов, но они у нас не очень-то распространены. Онлайн-агрегаторы, как правило, выдают вебмастерам кнопку со специальным кодом, с помощью которой пользователь легко может добавить RSS-поток сайта в соответствующий сервис. Именно благодаря таким кнопкам большое количество западных пользователей RSS, не догадываются, что они им пользуются! Посетители просто добавляли понравившийся сайт в My Yahoo!.

Новостные агрегаторы

К новостным агрегаторам относятся Яндекс.Новости, Новотека, новостной сервис украинской поисковой системы Мета. Процедура добавления потока в новостные сервисы довольно сложна, поскольку приходится не только дорабатывать сам RSS, но и активно переписываться с менеджерами сервисов. Политика новостного сервиса Яндекса строга по отношению к самому ресурсу и уникальности новостей, при добавлении надо вводить в поток дополнительный тег с полным текстом новости, кроме этого добавиться бумажная волокита для оформления сотрудничества. Новотека и новостной сервис украинской Меты просят указывать в RSS тематику каждой новости, а в тег description помещать полный текст материала, причем без тегов .

Google SiteMaps

Нестандартная возможность извлечь пользу из RSS-потока - добавить его в активно развивающийся сервис Google SiteMaps. Данный сервис используется для информирования основного индексирующего робота Google о новых и измененных страницах, кроме того, в Google SiteMaps можно посмотреть некоторую информацию по поисковым запросам для конкретного сайта и проверить правильность составления файла robots.txt.

Поиски по блогам

Поиски по блогам чаще всего сканируют именно RSS-потоки и, соответственно, могут привлекать на сайт дополнительный трафик. Добавить RSS-поток в Поиск по блогам Яндекса (15) можно с помощью соответствующей формы.

Выводы

На сегодняшний день продвижение RSS, или продвижение сайта с помощью RSS-потоков, - неотъемлемая часть работы с новостными ресурсами и ресурсами с часто обновляемым контентом, как блоги, некоторые форумы, современные веб-сервисы.

При проектировании сайта следует изначально учитывать возможность создания и модификации экспорта контента в RSS, причем нередко требуется одновременно несколько потоков.

Будем надеяться, что форматы RSS и Atom продолжат развиваться и использоваться в новых веб-сервисах!

Post Scriptum

Хочу напомнить, что, имея русскоязычный перевод спецификации, необходимо сверяться с источником. По ссылке из википедии мы можем попасть на перевод спецификации RSS, где допущена как минимум одна грубая ошибка - перед списком тегов в элементе item находим следующий текст:

Вот список обязательных элементов с описанием каждого и примерами применения.

А вот как эта же фраза выглядет в переводе спецификации:

All elements of an item are optional, however at least one of title or description must be present.

Выделение мое. Как говориться "с ног на голову".

Владимир Чернышов

Blog Archive