Я начинаю серию статей, посвященную Интернет-ботам. Постараюсь предоставить всю необходимую информацию для того, чтобы читатель смог самостоятельно писать такие программы для своих нужд.
Первая статья вводного характера. Вторая – срез необходимой информации о протоколе HTTP. Наконец, в третьей статье я покажу, как написать бот на примере программы, вытаскивающий анкеты с крупнейшего портала знакомств.
Поправка: кажется, в три статьи все не уместить
Бот (сокращенно от робот) – это специальная программа, выполняющая автоматически какие-либо действия через те же интерфейсы, что и обычный пользователь (википедия). Чаще всего это программа, которая пытается казаться для сервера человеком и автоматически выполняет массу рутинного труда.
Рассмотрим, где используются Интернет-роботы.
Самая необходимая сфера деятельности – обход и индексация сайтов поисковыми сервисами. Очевидно, что вручную делать это просто невозможно. Еще существуют так называемые чат-боты, служащие для автоматического ответа на вопросы человека. Они часто применяются в качестве автоответчиков в справочных системах. Популярны роботы биржевой торговли, они хороши тем, что могут реагировать на смену ситуации практически мгновенно и, главное, не подвержены эмоциям.
Применение роботы нашли и в руках злоумышленников. Это могут быть спам-боты, собирающие адреса электронной почты для дальнейшей рассылки рекламы. Это могут быть программы, загружающие Интернет канал потоком ненужной информации (например, DDOS-атаки). Есть и другие способы хулиганства.
Для того чтобы предотвратить нашествие роботов, Интерент-сервисы часто используют механизм «CAPTCHA». Его суть заключается в демонстрации картинки с текстом следующего вида.

Человек сможет распознать текст и, введя его, продолжить работу с системой. Робот же окажется в неловкой ситуации. Распознать такое изображение автоматически очень непросто.
Создав собственный Интернет-робот, можно получить мощное оружие. Это может быть «кликер» по контекстной рекламе, программа, автоматически регистрирующая ваш сайт в каталогах, виртуальный пользователь социальной сети, живущий своей жизнью… Это может быть что угодно!
Для написания бота необходимо знать основы протокола HTTP и язык программирования, позволяющий осуществлять сетевое взаимодействие.
о, клевая серия, жду следующих статей.
а будешь писать про какие-нибудь библиотеки для парсинга html?
Ты знаешь, мне было достаточно минимального парсинга. Его успешно производил собственный класс TextScanner размером в 100 строк.
Уверен, что в большинстве случаем этого будет вполне хватать. Исходники, конечно же, будут выложены на сайте.
Ищите, ищите мой голос в эфире )