Комментарии: (2)

Интернет-бот

Рубрика : Инструментарий

Часть 1, Часть 2, Часть 3

Я начинаю серию статей, посвященную Интернет-ботам. Постараюсь предоставить всю необходимую информацию для того, чтобы читатель смог самостоятельно писать такие программы для своих нужд.

Первая статья вводного характера. Вторая – срез необходимой информации о протоколе HTTP. Наконец, в третьей статье я покажу, как написать бот на примере программы, вытаскивающий анкеты с крупнейшего портала знакомств.

Поправка: кажется, в три статьи все не уместить :)

Бот (сокращенно от робот) – это специальная программа, выполняющая автоматически какие-либо действия через те же интерфейсы, что и обычный пользователь (википедия). Чаще всего это программа, которая пытается казаться для сервера человеком и автоматически выполняет массу рутинного труда.

Рассмотрим, где используются Интернет-роботы.

Самая необходимая сфера деятельности – обход и индексация сайтов поисковыми сервисами. Очевидно, что вручную делать это просто невозможно. Еще существуют так называемые чат-боты, служащие для автоматического ответа на вопросы человека. Они часто применяются в качестве автоответчиков в справочных системах. Популярны роботы биржевой торговли, они хороши тем, что могут реагировать на смену ситуации практически мгновенно и, главное, не подвержены эмоциям.

Применение роботы нашли и в руках злоумышленников. Это могут быть спам-боты, собирающие адреса электронной почты для дальнейшей рассылки рекламы. Это могут быть программы, загружающие Интернет канал потоком ненужной информации (например, DDOS-атаки). Есть и другие способы хулиганства.

Для того чтобы предотвратить нашествие роботов, Интерент-сервисы часто используют механизм «CAPTCHA». Его суть заключается в демонстрации картинки с текстом следующего вида.

Captcha

Человек сможет распознать текст и, введя его, продолжить работу с системой. Робот же окажется в неловкой ситуации. Распознать такое изображение автоматически очень непросто.

Создав собственный Интернет-робот, можно получить мощное оружие. Это может быть «кликер» по контекстной рекламе, программа, автоматически регистрирующая ваш сайт в каталогах, виртуальный пользователь социальной сети, живущий своей жизнью… Это может быть что угодно!

Для написания бота необходимо знать основы протокола HTTP и язык программирования, позволяющий осуществлять сетевое взаимодействие.

Комментарии (2)

о, клевая серия, жду следующих статей.
а будешь писать про какие-нибудь библиотеки для парсинга html?

Ты знаешь, мне было достаточно минимального парсинга. Его успешно производил собственный класс TextScanner размером в 100 строк.

Уверен, что в большинстве случаем этого будет вполне хватать. Исходники, конечно же, будут выложены на сайте.

Ищите, ищите мой голос в эфире )

Комментировать