Generador de Robots.txt

Predeterminado - Todos los robots son: Retardo de rastreo: Mapa del sitio: (deje en blanco si no tiene) Robots de búsqueda: Google Google Image Google Mobile MSN Search Yahoo Yahoo MM Yahoo Blogs Ask/Teoma GigaBlast DMOZ Checker Nutch Alexa/Wayback Baidu Naver MSN PicSearch Directorios restringidos: La ruta es relativa a la raíz y debe contener una barra diagonal. "/"

Ahora, cree el archivo 'robots.txt' en su directorio raíz. Copia el texto anterior y pégalo en el archivo de texto.

Acerca de Generador de Robots.txt

Robots.txt sirve como una especie de manual de instrucciones para rastreadores. Permite a los rastreadores web saber qué páginas y archivos se pueden rastrear para indexarlos y cuáles no.

Generalmente, el archivo robots.txt se usa para controlar el tráfico de rastreadores a su sitio web por lo que no se ve abrumado por las solicitudes de rastreadores. El mejor uso para los archivos robots.txt es ocultar elementos del sitio web, como archivos de audio o secuencias de comandos, para que no aparezcan en Google. Es importante tener en cuenta que los archivos robots.txt no están destinados a usarse como una forma de ocultar páginas de Google. Si tu objetivo es evitar que se rastree el contenido, usa la función noindex. 

¿Cómo formatear mi Robots.txt?

Cuando se trata de formatear robots.txt, Google tiene una guía bastante estricta. Cada sitio web solo tiene permitido un archivo robots.txt, y ese archivo debe seguir un formato específico. La mayor prioridad cuando se trata de crear un archivo robots.txt es asegurarte de que esté ubicado en la raíz de tu dominio. Por ejemplo, un archivo robots.txt de buenseo se vería como https://buenseo.es/robots.txt. Aquí, el archivo robots.txt está conectado directamente al dominio en lugar de estar oculto dentro de una sección del sitio web como nuestro blog o páginas de servicios.

Cada archivo consta de un conjunto de reglas que los rastreadores deben seguir cuando encuentran tu sitio web. Cada regla, o grupo, incluirá un agente de usuario y un comando. En la mayoría de los casos, el useragent será un rastreador, como Googlebots, y el comando permitirá o no permitirá que estos rastreadores accedan a determinados archivos de su sitio. El archivo robots.txt de su sitio web debe contener todas las reglas que tiene para su sitio. Un ejemplo de lo que podría incluir su archivo:

Ejemplo:
Useragent: [nombre del agente de usuario, como "Googlebots"]
Disallow: [URL del archivo que no desea rastrear, como “/SEO-video”]

Cómo usar los comandos de Robots.txt

Hemos descubierto cómo formatear nuestro archivo robots.txt, pero ¿qué significan exactamente todos los comandos? Básicamente son solo su forma de informar a Google a qué contenido acceden sus rastreadores y dónde está colocando un letrero de "Prohibido el paso". Hay tres comandos principales:

  1. Rechazar = Disallow
    Como se mencionó anteriormente, puede haber ciertos archivos que no quieras que Google indexe. Robots.txt disallow fue creado para este propósito. La opción de disallow permite a los rastreadores saber que la página o el archivo que has especificado está fuera de los límites. Utilice el comando no permitir para evitar que funciones como elementos multimedia y de diseño se indexen y aparezcan en Google. Y recuerda: no quieres usar un archivo robots.txt para ocultar páginas.
  2. Permitir = Allow
    Si bien el propósito principal de un archivo robots.txt es informar a los rastreadores sobre lo que no deben escanear, también puede ser beneficioso informarles qué deben escanear. El comando de permiso de robots.txt se usa normalmente cuando a una página se le ha dado un comando de rechazo, pero dicha página puede tener ciertos elementos que desea rastrear, como si no permitiera que los rastreadores escaneen su página de inicio general pero desea que escaneen una página específica. Blog.
  3. Sin índice = Noindex
    Un comando noindex sigue su propio conjunto de reglas. En lugar de colocarse en el archivo robots.txt, se incrusta en la metaetiqueta. Antes de que Google encuentre su archivo robots.txt, puede encontrar su comando noindex y saber exactamente qué contenido omitir. Agregar un comando noindex a una página puede ser particularmente útil si alguien ha creado un vínculo de retroceso a ese contenido.

Hay dos formas para colocar un comando noindex a sus páginas. El primero es decirle a todos los rastreadores qué páginas no indexar incluyendo <meta name =”robots” content=”noindex”> en su encabezado. El segundo es especificar el tipo de rastreadores que no son bienvenidos para escanear su sitio. Si prefieres mantener el contenido fuera de Google específicamente, puedes incluir <meta name =”googlebot” content=”noindex”>