Стандартный robots.txt:
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: mysite.ru
Расширенный robots.txt:
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*?sl* Disallow: *.pdf$ Disallow: /name.php?action=print Disallow: /trackback Disallow: /*rss.html Disallow: /*atom.html Crawl-delay: 2 Host: mysite.ru Sitemap: http://адрес карты сайта=xml
/*?sl* - Страница отправка на e-mail
*.pdf$ - Страница для печати
/name.php?action=print - Новостные каналы
/*rss.html
/*atom.html - Динамические ссылки
/trackback - это механизм уведомления сайта A (на нем может находиться, например, некая «родительская» статья) о существовании некоторого другого сайта B (например, с «дочерней» статьей или некоторым комментарием).
Crawl-delay: 2 - таймаут 2 секунды