Парсер контента. Как у меня парсили контент

Парсер контента. Как у меня парсили контент

Вот решил поднять тему парсер контента, или как у меня парсили контент. Однажды такой случай я уже освещал на своем млм блоге, о нем немного ниже.

Парсить – это автоматический сбор (обработка, анализ) необходимых данных. Парсить можно выдачу позиций ресурса, также можно парсить страницы для определения нужной ссылки.

Недавно решил проверить уникальность некоторых своих постов на одном из моих блогов (проверяю после одного неприятного случая, который я осветил на своем блоге). Проверять решил на предмет воровства, и, как оказалось, не зря. Проверял программой Адвего Плагиатус, которую бесплатно скачал на сайте advego.ru. В данной программке я и увидел, что мои посты используются на левом сайте.

Как оказалось, контент с моего блога парсили полностью на автомате, через rss-ленту. Существует такой специальный плагин для вордпресс, который нужно всего лишь установить на движок, настроить его соответственно, а дальше лишь добавляешь туда rss-ленты понравившихся ресурсов и все, сайт наполняется парсеными постами полностью на автомате. То есть, я написал пост, опубликовал его у себя на блоге,  а через 10 минут он оказывается на этом говносайте.

Самое обидное то, что несколько моих уникальных постов, которые я с чувством собственного достоинства выложил на свой ресурс, принялись поисковыми машинами на сайте плагиатора за оригинальные, а у меня на блоге они получились как дубли, вот так.

theft

Первое что мне захотелось сделать, это оторвать этому гаду руки. Но я поступил иначе, взял и сочинил пост на тему “как я ворую контент” типа “я вор конченный, ворую у других”. Опубликовал на 10 мин у себя на блоге и удалил. Данный пост через rss схавал этот ресурс, и  он оказалась на сайте вора, да еще и написанный вроде как его автором.

Обычно, когда контент воруют таким методом, то за данными говноресурсами сильно не следят, так что я надеюсь, что данный пост там долго будет висеть, и будет находиться по запросу “воры контента”.

Так же просмотреть какой контент и главное - кто парсит, можно с помощью сервиса Feedburner во вкладке Analyze (проанализировать необычные использования).

Дальше я думаю без изменений продолжать писать посты и публиковать их на своем блоге. Разве что, дополнительно буду использовать сервис Tynt, с помощью которого можно просмотреть - кто и когда парсил мои посты, а также другую полезную инфу. Тинт, например, вставляет в страницу код, который потом будет генерировать ссылку на наш ресурс: “читать на www.site.com”, т.е.  таким образом можно будет даже и выиграть от того, что кто-то спарсил наш пост.

Вот только пока остается проблема с ПС и их определение первоисточника, так что еще немножко посерфю по инету, если есть ответы, пишите в комментариях, кто как воюет  с данной проблемой.

На этом сегодня все. Желаю удачи и пока, пока.

С Уважением, Геннадий Ольховский

Рекомендую статьи по теме:

Устали? Отдохните и сыграйте - ПОЙМАТЬ КОШКУ.
Не получилось поймать? Не беда - начните сначала!

classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0" bgcolor="#E6E5E5">

Поиграл сам? Расскажи своим друзьям!


16 комментариев: Парсер контента. Как у меня парсили контент

Страница 1 из 11
  • Данил:

    Согласен, тинт отличный сервис. Сам им пользуюсь

    [Ответить]

  • Алена:

    Спасибо за идею. У меня таже проблема. Писала письма поставить ссылку на оригинал, удалить, все бесполезно. При чем там статьи в топе, а мои Янлекс вообще выбросил из индекса.

    [Ответить]

  • Геннадий Ольховский:

    Действительно Тинт отличный сервис с его помощью легче отслеживать наглых и необузданных воришек.

    [Ответить]

  • Геннадий Ольховский:

    Алена, если Вы будет пользоваться теми сервисами, которые я описываю в этом посте https://genri.biz/web-master/besplatnaya-proverka-na-unikalnost-teksta, тогда будет большая уверенность, что Вы докажите свою правоту.

    [Ответить]

  • Владислав:

    Добрый день!

    Читайте внимательно правила размещения анонсов в группе » Как заработать не выходя из дома. Дополнительный заработок «.
    http://subscribe.ru/group/kak-zarabotat-ne-vyihodya-iz-doma-dopolnitelnyij-zarabotok/5221926/

    У вас на сайте не установлен баннер группы.

    [Ответить]

  • Геннадий Ольховский:

    Мне очень жаль, но мне хватает баннера моей группы «Бизнес — моя жизнь».

    [Ответить]

  • Надежда:

    Воровство контента — действительно очень актуальная тема.
    Что касается сервиса Tynt — он, конечно, хороший и полезный. Но…
    Но в случае воровства контента из ленты — он не поможет.
    Потому что он предназначен совершенно для другого.
    Он делает ссылку на Вашу статью, когда её скопировали ВРУЧНУЮ.
    Поэтому для этого Вашего блога единственное спасение — Оригинальные тексты от Яндекса. Поскольку у Вас на блоге 20 тИЦев.
    А КомментЛюв поругался на мою ленту и не захотел устанавливать ссылку. Ну и ладно. Я в общем-то не из-за этого тут коммент оставляю.

    И кроме того — у меня привычка. Когда я оставляю коммент на любом сайте — перед отправкой я его копирую с помощью Ctrl+C. Чтобы потом не было мучительно больно.
    Ну… Вы знаете, КАК страшно ругался Ваш блог на это моё действие. smile

    [Ответить]

  • Геннадий Ольховский:

    Надежда, сервис Tynt — оставляет не только ссылку под скопированным текстом, но и на сервисе в своем аккаунте можно отследить и увидеть, где находится «унесенная» статья. А на блог не серчайте, он себя защищает как может smile

    [Ответить]

  • Юлия:

    Тема воровства контента всегда актуальна. По-моему лучше всего использовать Яндекс — Оригинальные тексты. Но нужно имет ТИЦ 10.
    А что делать молодым сайтам? Они часто остаются обворованными..
    P.S. Ваша идея с постом на тему “как я ворую контент” просто 5+!!!

    [Ответить]

  • Геннадий Ольховский:

    Юлия, Вы правы, использовать Яндекс «оригинальные тексты» — это один из способов, но, как Вы заметили, использовать эту функцию можно только если на сайте/блоге есть ТиЦ 10 и минимум 2000 знаков. С нулевым ТиЦ можно использовать много других сервисов, к примеру, таких как Text.ru. Этот сервис имеет много преимуществ, рекомендую не только испробовать, но и пользоваться регулярно, как и Я.

    [Ответить]

  • Сергей:

    «Так же просмотреть какой контент и главное — кто парсит, можно с помощью сервиса Feedburner во вкладке Analyze (проанализировать необычные использования).»
    А можно про это поподробней? Где и что смотреть?

    [Ответить]

  • Геннадий Ольховский:

    Сергей, зайдите в Feedburner во вкладку Analyze (Анализировать)затем в Uncommon Uses (необычные использования), там находится статистика, если у Вас парсили статьи, тогда это будет отображено.

    [Ответить]

  • Сергей:

    Вижу там только график, больше ничего. Как и что должно быть «отображено»?

    [Ответить]

  • Геннадий Ольховский:

    Думаю, если бы что-то у Вас скопировали, тогда это отобразилось в ином виде.

    [Ответить]

  • ZeroXor:

    Хитро поступил, молодец! Если владельцы того ГС практически не заглядывают на свое «детище», то обнаружат это дело ой как нескоро.

    [Ответить]

    Геннадий Ольховский Reply:

    Голь на выдумки хитра…smile

    [Ответить]

Страница 1 из 11

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

ПОИСК ПО РУНЕТУ

РЕКЛАМНОЕ МЕСТО

РЕКЛАМА — двигатель прогресса

СОЦИАЛЬНАЯ КАРУСЕЛЬ

Загрузка карусели...

ОБРАТИТЕ ВНИМАНИЕ!

GOOGLE+


ПОДПИСКА НА RSS

Введите Ваш e-mail:

Подписка на мой RSS канал