Архив рубрики "Мастерская"

В стотысячный раз на самизнаетекаком форуме поднялась (сама!) тема про критические дни у сайта, который приглянулись копипастеру.

И тут меня осенило!? Нет, чудес не бывает, я уже как-то раз думал на эту тему, ну а тут случай подвернулся всё прокрутить ещё раз и довести до долгожданного финала свою мысль.

Сайт donor – белый, пушистый, с озабоченным администратором, которому не всё равно на своё детище (это явно не я)
Сайт ?&$ – в его корне стоит парсер, который круглыми сутками только и делает, что тащит, тащит, тащит при чём так, что дай ребёнку адреса обоих сайтов и пообещай мороженное, найди он 5 отличий, дитё останется без сладкого.

Создаёте новый файл стилей, где делаете весь или часть контента скрытым (невидимым) простому пользователю, а в исходнике она естественно остаётся.

Кладём файл в папку 1

В .htaccess запрещаете доступ к папке с новыми стилями для всех, кроме IP робота, который грабит (если удалось определить его ip).

order deny,allow
deny from all
allow from 11.000.111.000

11.000.111.000 – айпишник бота

В результате на вашем сайте всё идеально, поскольку ни пользователи, ни поисковые роботы не могут загрузить новый файл стилей (им передаётся информация, что такого файла не существует), а на сайте-копии часть или весь контент исчезает.

Можно со спокойной душой писать абузу в яндекс, со своими возмущениями – как, он – ЯНДЕКС, ещё держит в СВОЕЙ поисковой базе этот презренный, унылый сайт, пренебрегающий всеми правилами, написанными работниками Яндекса сайт, использующий незаконные методы оптимизации!

А можно поступить более дерзко: сгенерировать дор и закинуть его в папку на своём сайте, запретив доступ к папке с дором.
Либо загрузить вирус. И тогда не только в яндексе задёргаются (хотя как задёргаются, писал я им как-то про сайт с вирусом, они его в выдаче по 1 запросу приопустили и закрутили огромный болт, на то, что он по другим запросам в топе), но и любой абузоустойчивый хостер начнёт шевелиться, ведь распространение вирусов – это уже проблема куда хуже нескольких сотен (а то и тысяч) недовольных юзеров, которые пишут и пишут каждый день, чтобы заблочили акки нерадивых спамеров.

Остаётся придумать, что делать в случае если копипастер юзает прокси ?!?

  1. можно и в файл, но тогда приведённый код для .htaccess работать не будет []

Только для новичков – заработок в интернете за клики

Самый простой и дешёвый способ добычи качественного уникального контента – это его парсинг из мест, которые не могут проиндексировать ПС.
Некоторое личности берут контент с чужих сателлитов, которые ещё не успели войти в индекс, что по сути является паразитизмом, а паразитов в нашем обществе никто не любит. Но это злостный паразитизм, когда и “растению-хозяину” становится плохо. Но есть и более лёгкие формы паразитизма, когда контент берётся, например, из всем известной социальной сети Вконтакте.
Владельцы по сути не страдают, но и помогают “паразитам” жить дальше :)

Единственный известный мне парсер обсуждений Вконтакте – это парсер от parsermaster’а

Принцип работы парсера:
На входе вводим: логин (email), пароль и номер группы.

Парсер авторизуется, доходит до списка с обсуждениями и собирает, абсолютно все сообщения всех обсуждений группы.

На выходе вы получаете txt файл формата

“автор сообщения|дата сообщения|адрес до аватара|сообщение|название группы|тема обсуждения|номер группы”

Пример:

Алексей Лемеш|4 авг 2009 в 16:56|http://cs204.vkontakte.ru/u42757523/c_1079bc0d.jpg|Петровский остров – очень красивое место! Можно пройти от м "Крестовский остров" по Большому Петровскому мосту с Крестовского на Петровский остров. Петровская площадь, Дом ветеранов сцены… А если пойти на западную оконечность острова (территория яхт-клуба), то открываются красивые виды на губу малой Невы и Невки, Финский залив и о. Декабристов.|Cамодеятельный туризм под Питером (группа закрыта, доступна только для просмотра)|интересные места в Питере, именно в черте города|55728
Виктория blackberry Цупсман|13 сен 2009 в 22:41|http://cs9650.vkontakte.ru/u311103/c_0a39f4cc.jpg|Была сегодян в мозаичном дворике, о котором писала в начале августа) место вроде и интересное… вот только грязновато там(( некультурная у нас молодежь… к сожалению(так же побывала и в дворике "страны ОЗ" вот там вообще скукота мрак.. делать там не чего… так.. развлекалка для местных жителей с детьми погулять, ехать туда целенаправлено – не стоит, с моей точки зрения|Cамодеятельный туризм под Питером (группа закрыта, доступна только для просмотра)|интересные места в Питере, именно в черте города|55728

Скриншоты:
Стартовая страница
parsvk1
Лог выполнения
parsvk2

Цена парсера:
40 wmz

Купить можно на этой странице

Требования к хостингу
php 5.2.*
curl
safe_mode = off

Применение контента:
Парсер выдаёт и имя юзера, его аватар и сообщение. Этих данных вполне достаточно для создания псевдофорума.
Просто контент можно использовать и для сателлитов и для доров.

Но формат вывода не удобен для дальнейшей обработки. К счастью есть конвертеры на parsermaster.ru и на wmaid.com

1. Сюда вставляем получившийся массив данных
2. Вводим имя файла и расширение
3. DATA1 это первое поле во входном массиве, DATA2 это второе и так далее.
| – это разделитель во входных данных

Элитная женская парфюмерия и духи.
Оригинальный дизайн интерьера и ремонт квартир.

Следим за пользователями на сайте

14 Октябрь 2009 | Автор: Virtual

Доброго времени суток всем читателям этого блога. Вашему вниманию предлагается гостевой пост Сибирского оптимизатора.

Одним из важных показателей успешности того или иного Интернет ресурса является его посещаемость. Думаю, что ни для кого не будет секретом, что существует масса способов отслеживать действия пользователей. Более того, я бы сказал, что анализ поведения пользователей на сайте и то, откуда они попали на наш сайт, является ценнейшей информацией. Анализируя которую, и сделав соответствующие выводы можно строить более успешные стратегии по продвижению своего детища.

Я хотел бы сделать обзорное сравнение трех основных счетчиков посещений. Я не буду описывать то, как установить коды счетчиков на сайт или блог. И это не будет инструкция в картинках о том, как же сделать тот или иной отчет. Это будет просто обзорное сравнение, базирующееся на личном опыте.

Скажу сразу, что проводил эксперимент, по установке на 2 сайта всех трех счетчиков. Показатели были разные у всех. Кто из счетчиков привирает сказать сложно. Нужно рассматривать каждое конкретное посещение в отдельности. ;) Итак начнем:

Первый пациент это всеми любимый LiveInternet.

Один из самых доступных для понимания и установки счетчик посещений. В бесплатном варианте требует установки пиктограммы счетчика на сайте. Если не хочется портить дизайн, и не жалко 3$ в месяц – можно установить невидимый счетчик. С другой стороны циферки на значке счетчика – лишний повод померяться “пиписками” друг с другом. И показать свою значимость потенциальным рекламодателям.

Возможности счетчика от Li даже в его бесплатном варианте прямо скажем не плохие: считает посетителей по источнику перехода, считает внутренние переходы пользователей, переходы с поисковых систем в разрезе поисковых фраз. Отслеживает переходы пользователей при кликах по контекстной рекламе. Можно отследить точки входа и выхода пользователей. Есть возможность посмотреть все данные в графическом виде. Аналитику можно проводить по дням, неделям и месяцам.

Естественно учитывает географию пользователей и их основные параметры (ОС, браузер, разрешение экрана и т.д). Данные обновляются интерактивно. В принципе хорошие возможности для анализа посетителей и их действий. Впрочем все то-же могут и следующие наши подопытные. Поэтому твердая четверка.

Следующий пациент это Яндекс метрика.

Первое что завораживает это карта переходов по сайту реализованная на flash. Сделано красиво, только вот информативность хромает. Отчеты по своему содержанию схожи с теми, что мы можем получить в LiveInternet. Правда в более упрощенной форме. Графики выводятся при помощи flash. С одной стороны красиво, и радует глаз, с другой, несколько тяжеловато для медленных Интернет каналов. Да и трафик у нас в стране еще кое-где оплачивается помегабайтно. Изменений в скорости загрузки сайта при установке данного счетчика замечено не было. В общем твердая четверка – не больше.

И наконец на сладкое у нас Google Analytics.

С этим сервисом я познакомился достаточно давно. В то время я писал сайты для зарубежных заказчиков в одной фриланс конторке. Сервис тогда даже не был переведен на русский язык. Но уже тогда он оставил о себе приятное впечатление. Хочу сказать, что за последнее время Google Analytics очень сильно изменился. Этот сервис был и остается моим любимым анализатором.

Иногда складывается такое ощущение, что там есть все, что нужно для сбора и аккумулирования статистики. Даже если чего-то нет, оно либо уже есть, но Вы не знаете как этим пользоваться и где искать. Или же, если отчет действительно актуален – будьте уверены, он появится в сервисе в самое ближайшее время. Респект разработчикам. А уж пользовательские отчеты это вообще что-то невообразимое.

Единственный минус Google Analytics – так это то, что данные в его отчетах обновляются раз в сутки. А специалисты утверждают, что при наличии прямых рук можно получать обновленную информацию ежечасно. Но по большому счету я бы даже сказал это не минус, а плюс. Было замечено, что большинство начинающих сайтостроителей после того, как опубликуют свое творение в Интернете, раз в несколько минут заходят и смотрят, а не пришел ли кто к ним на сайт.

То же самое касается и начинающих СЕО специалистов. Которые после проведения каких либо мероприятий, направленных на раскрутку того или иного ресурса ежечасно проверяют, как же там обстоят дела с посетителями на их “подопытном” сайте. Так вот ежесуточное обновление Google Analytics может вылечить это нехорошее пристрастие. :) Несколько лет назад бывали проблемы с загрузкой сайтов, когда сервис был недоступен. В последнее время я таких проблем не наблюдал. И как итог – твердая пятерка не меньше.

Итак, что же мы имеем в итоге.

Если нам нужно потрясти своим “пузом” перед потенциальными рекламодателями, чтобы показать посещаемость – вешаем на сайте счетчик от LiveInternet.

Если нужен очень простой и оперативный учет посетителей без каких-либо изысков – нам прямая дорога в Яндекс метрику.

Если же торопиться нам некуда и нужна ясная картина происходящего на сайте – да здравствует Google Analytics.

Можно, конечно, поставить на сайт все 3 счетчика, но вот только будет ли это иметь какой-либо смысл? Время загрузки страниц определенно хоть немного, но увеличится, а получать из 3х разных мест информацию, которая в 100% случаев будет отличаться друг от друга – я смысла не вижу.

Если Вам понравится этот пост, Вы можете подписаться на мою RSS ленту, и получать все последующие посты более оперативно.

Выделенные сервера в аренду на ваш выбор.

Парсеры, грабберы, контентоворователи

28 Сентябрь 2009 | Автор: Virtual

Собирателей различного вида контента с сайтов в общем-то много, но большинство заточено под определенные цели: какие-то парсеры тащат картинки, какие-то сохраняют ссылки, некоторые заточены только под парсинг определенных сайтов. Но сегодня я бы хотел поговорить про универсальные парсеры контента, которые можно настроить под любой сайт.

Multireader
Первым таковым в моей жизни был multireader

Программа эта предназначена для сохранения текстов с любых сайтов, кроме того можно собрать воедино несколько текстовых файлов, и есть парсер gogo.ru
Для граббинга контента с нужного сайта создаёте новый проект, где указываете начальный url, можно поставить галочку “грабить только до уровня” и указать необходимый уровень – очень удобно, когда нужны только свежие статьи, располагающиеся ближе к главной странице.

В программе есть 2 уровня распознавания шаблона контента:
Автоматический – не всегда программа правильно находит текст, поэтому о существовании этого режима лучше вообще забыть.
Ручной – более актуальный способ: выбираете откуда брать заголовки статей (из тайтла, или из тегов h1/h2… но самому указать между какими тегами находится заголовок нельзя, поэтому если ваш “подопытный” свёрстан нестандартно, то вы не сможете получить нормальные заголовки), и указываете где (между какими тегами) находится сам текст статьи.
парсер

Кроме того в парсере есть очень удобная фишка, экономящая трафик и время – есть возможность указать условия загрузки и сохранения страниц.
Например, если я укажу слово “tag” в условиях загрузки, то парсер будет заходить только на страницы, содержащие это слово.

При экспорте контента можно создать любой шаблон, например, чтобы сперва выводился заголовок, потом ставился какой-нибудь разделить, а дальше шла сама статья. Экспортировать можно как в отдельные файлы, так и все статьи в один файл.

Но у меня почему-то возникли проблемы с парсингом большого количеств страниц и я перестал им пользоваться, тем более появился другой, более удобный для меня парсер.

Sjs-site-grabber
Sjs – универсальный парсер контента!
Автор этой программы вам должен быть знаком хотя бы по скрипту “живые комментарии“.
Программа появилась несколько дней назад, но бурно развивается.

граббер sjs

Здесь же сперва парсятся все внутренние ссылки на сайте на все страницы. В настройках можно указать каких данных не должно быть в url. После завершения работы парсера ссылок полученны данные можно обработать, удалив ненужные ссылки. Если вам требуется контент не со всего сайта, а только из одного раздела, то можно сохранить ссылки только с нужной страницы.
И после создания файла со списком ссылок переходим непосредственно к парсингу статей, для этого создаётся шаблон, где указывается между какими тегами находится заголовок, статья, и откуда брать рубрику для этой статьи (этого нет в других парсерах, здесь же, если вы грабите целый сайт, где несколько разных категорий, то в итоге ваши статьи останутся привязанными к этим категориям).

Статьи можно экспортировать в 4 формата: для WPT, Zebrum Lite, Satellite-X (этот формат подходит и для Autoblog-X) и простой формат.

Минус – нельзя создать свой шаблон для экспорта.

Есть и уникальная функция у этого граббера – он может сохранять изображения, находящиеся в статьях. Этого нет в аналогичных продуктах.

Автор прислушивается к хорошим советам и постоянно обновляет своё детище.

Если вы при покупке сообщить, что вы от меня (от Virtual’a), то вы получите скидку 10%.

UPD. В парсер добавлено:

  • Сохранение настроек – теперь не надо каждый раз все настраивать
  • Новый формат шаблона контента. Теперь можно использовать до 99 тегов, вместо [title],[text] и т.д. используем [1], [2], [3]… там где надо. В совокупности со следующим пунктом дает огромные возможности в реализации своих сдей.
  • Возможность задать свой формат вывода. Теперь можно его менять не обращаясь ко мне. В 1 файл, в кучу файлов, названия этих файлов… все задается.
  • Возможность парсить текст с/без ссылок. При желании ссылкам добавляются теги noindex
  • Устранены несколько мелких багов. Спасибо всем, кто помогал и продолжает помогать совершенствовать программу.

GEN-S
Парсер статей на gen-s.ru (про сервис я уже писал).

Сам сервис предназначен для мутации (уникализации) статей. В момент написания прошлой статьи качество было ещё “не очень”, сейчас же оно заметно улучшилось, но идеальным оно не станет никогда, сами понимаете – не человек рерайтит статьи.

Основное отличие этого парсера от предыдущих в том, что он условно бесплатный (сперва можно напарсить 100 статей, чтобы продолжить парсинг, эти статьи нужно прогнать через сервис, т.е. за парсер вы не платите, а оплачиваете только уникализацию статей) .
Этот парсер отлично подойдёт для тех, кому нужен уникальный контент для сателлитов.

А в остальном он похож на его вышепредставленных сородичей: точно также указываете между какими тегами находится заголовок, где находится сама статья и с каких страниц парсить контент.
Кроме этого для статей можно сразу ввести метку. В сервисе есть целый мануал по использованию парсера.

Экспортировать статьи можно как все в один файл, так и в xml файл, и в формат для Satellite-X/Autoblog-X.

Кстати, там сейчас проходит акция каждый раз пополняя счет на сумму от 50 рублей Вы получаете бонус в размере 100 рублей.

И на забывайте про счастье, рекламу и бабло.

На этом всё! С вами был Virtual, оставайтесь на первом :D

При работе в сети постоянно требуются прокси сервера: при регистрации аккаунтов, при анализе сайтов, при рассылке приглашений вконтакте…

Раньше покупал прокси на freeproxy.ru, но там из пары сотен в лучшем случае рабочими оказывались 30-40. Сейчас же появился новый сервис Proxy.SEO-script.ru

- каждый час обновляются списки и удаляются неработающие прокси

- сортировка по типам прокси: прозрачные, анонимные и элитные

- сортировка по странам, поддержке Cookies и POST-запросов, передаче Referer

- несколько типов аккаунтов, в том числе и бесплатный!

- онлайн-чекер Ваших прокси

- возможность дополнительно проверить прокси из списка

В системе имеются 3 типа аккаунтов – FREE, LITE и PRO.

Различия приводятся в таблице.

прокси сервер
Стоимость аккаунтов:

  • LITE (15 дней) – 3 WMZ
  • LITE (30 дней) – 6 WMZ
  • PRO (15 дней) – 5 WMZ
  • PRO (30 дней) – 10 WMZ

Цены, как видите, довольно демократичные, по сравнению с конкурентами, которых в общем-то немного.

Пока что оплатить услуги сервиса можно только прямым переводом на их кошелек, автоматическая оплата пока не реализована.

На главной странице сервиса вы найдете полную информацию по каждому прокси.

  • Тип proxy (прозрачные, анонимные, элитные
  • Referer
  • Cookies
  • POST-запросы
  • Страна
  • Последняя проверка

Если вы не хотите рыться в сети в поисках прокси, то Proxy.SEO-script.ru – это лучший выбор с самыми свежими прокси.

ZennoPoster да ZennoBot с Zennoскидочкой

8 Сентябрь 2009 | Автор: Virtual

В нашем полку прибыло!
ZennoPoster – программа, предназначенная для повторения Ваших действий на интересующих Вас интернет-ресурсах (заполние полей, клики по ссылкам и т.д.). Работа может вестись через прокси сервера (есть встроенный proxy checker). ZennoPoster создан для людей не знакомых с программированием, поддерживает распознавание графической защиты (captcha) через OCR сервисы. Программу можно использовать как настраиваемый регистратор фрихостов, блогов и т.д. Основное отличие от подобных программ состоит в многопоточном выполнении заданий. Подробнее…

ZennoBot – для тех, кому в ZennoPoster не хватает гибкости любимого языка программирования, создали ZennoBot, которым можно управлять из ЛЮБОГО языка программирования. Однопоточная версия предоставляется пользователям бесплатно. Подробнее…

Главный плюс ZennoPoster в том, что при работе с ним совершенно не надо знать ни одного языка программирования, главное уметь пользоваться мышью, всё остальное программа сделает сама (сама создаст скрипт, сама его выполнит :D)

Цены вы можете посмотреть на этой странице

Скидка 5%. При покупке сообщите, что вы от меня (От Virtual’а icq #361865488)

Постовой