La indexación en los buscadores

Antes de empezar el SEO lo primero que deberíamos hacer es asegurarnos de que Google o el buscador que sea está leyendo bien nuestra página Web.

¿Cómo funciona esto de leer la página Web o qué quiere decir esto de indexar una página Web?

Hace unos 20 años los buscadores eran bases de datos creadas por humanos, de hecho eran directorios en los que tú tenías que entrar y darte de alta, dabas de alta tu url (la dirección de tu sitio Web). Dabas de alta los Keywords por los que querías que te encontrasen: las palabras clave, el título de tu sitio Web y una breve descripción.

Cuando alguien entraba en uno de estos directorios, hacia una búsqueda y en función de la palabra clave que buscase se mostraban unos resultados u otros, según si encontraba esa palabra clave en uno de los campos, la url, Keyword, title o description.

Pero todo esto cambió en el año 98 cuando nació Alta Vista. Alta Vista fue el primer buscador que utilizó una tecnología completamente diferente. Empezó a utilizar la tecnología de indexación automática de páginas.

¿Cómo funciona la tecnología de indexación automática de páginas?

Lo primero que hicieron los técnicos de Alta Vista fue crear un agente robot o una araña, la llamamos araña porque en inglés lo llaman spider, porque Web quiere decir tela de araña, entonces los programas que corren solos por la Web los llaman spiders y cuando lo traducimos al castellano lo llamamos araña. En realidad el nombre técnico es agente robot o robot agent.

Agente, araña, robot y spider es exactamente lo mismo:

Un pequeño programa que corre sólo por Internet y va leyendo todo lo que encuentra. Cuando entra en un sitio Web lee el contenido y lo envía a la base de datos, vuelve aquí sigue leyendo y encuentra un enlace, pasa a través del enlace y sigue leyendo, vuelve a leer el contenido, base de datos, enlace, pasa, entra, sigue leyendo y lo lleva a la base de datos; de manera que desde el año
98 no hace falta ir a los buscadores y darse de alta, sino que ellos te encuentran, en principio.

Si no quieres que tu página web sea indexada por Google, incluso cuando otras páginas web estén enlazándote, usa la etiqueta “noindex meta tag” o “x-robots-tag“. Cuando la araña de google llegue al sitio web verá esas etiquetas y no lo indexará. De las dos, la etiqueta “x-robots-tag” es particularmente importante cuando quieres limitar la indexación de los archivos que no sean HTML como gráficos y otros tipos de documentos. Los comandos que se pueden incluir en los ficheros son los siguientes:

  • Allow/Disallow: Aviso de lo que queremos que sea o no sea indexado. Se pueden incluir urls o directorios.
  • Follow/No Follow: Aviso de si los enlaces que hay en una página han de seguirse o no.
  • Index/No Index: Aviso de si algo se tiene que indexar o no.

¿Por qué deberíamos comprobar si estamos indexados o no?

  • Pues porque por desgracia las arañas no pueden ver según qué tipo de programación; no pueden ver por ejemplo el JavaScript, si nuestro sitio Web lo a programado una empresa o un programador acostumbrado a programar programas de escritorio es posible que haya utilizado JavaScript para hacer los enlaces. Si este es el caso, las arañas no los verán, entonces entrarán en nuestro sitio Web, leerán la página de inicio pero no van a ver ninguno de los enlaces que llevan hacia el interior. Así que hay que evitar JavaScript al menos de la parte de enlaces.
  • Tampoco ven las pop up porque para hacer una pop up, una ventanita que se abre sin el navegador de arriba, hay que hacerlo en JavaScript, entonces muchas veces programamos sitios Web en los que vemos todas un listado de productos, por ejemplo, y que cuando clicas un producto, se abre una ventanita con la foto del producto y la descripción del producto pues eso, no va a ser visto por Google y por lo tanto la descripción de nuestros productos no se va a encontrar en este sitio Web.
  • El Flash, por suerte ya casi nadie programa sitios Web en Flash, no se indexa bien en los buscadores. Google es capaz de leer la página de inicio y algo de contenido, pero no va a ver todo el árbol de contenidos con lo cual todo el directorio o sea un catálogo de productos o información sobre quiénes somos, qué hacemos etcétera, eso no lo va a ver; hay que evitar los sitios
    Web en flash. En la actualidad se utiliza html5 y no hay ningún problema de indexación.
  • Algunos botones no funcionan, sobre todo cuando tenemos páginas Web con mucho contenido y tenemos botón en un listado, botón de página 1, página 2 página 3, “ver más”; ese “ver más” algunas veces no se indexa ¿por qué? Porque está escrito en JavaScript de nuevo o sea que vigilad con JavaScript.
  • Detrás de un login y password tampoco podemos hacer pasar a una araña, porque el sitio Web le pregunta el login y ella no sabe qué poner y se va. Osea que muchas veces la gente programa extranets, o sea como una intranet externa, pero sin que sea vea el resto, sin que se vean los productos.

¿Cómo podemos saber si nuestro sitio Web está indexado y cuántas páginas tiene indexadas y cuáles son?

Vamos a verlo ahora mismo nos vamos a Google y buscaremos lo siguiente:

Primero, para saber si nuestra web Escape Digital está indexada teclearíamos:

Nota: Es muy importante que no incluyamos espacios entre los dos puntos y el nombre de la web y tampoco las www.

Clicamos y nos dice que tenemos 1,750 resultados aproximadamente y nos sale un anuncio de Google webmasters, si sale este anuncio es que lo hemos hecho bien pues Google cree que eres un webmaster y piensa: “vamos a ver si se registra en lo que se llama Google search console”, que es como se llamaba antes Google webmasters.

Vamos a interpretar esto, si hemos buscado: site:miescapedigital.com Saldrán 1,750 resultados y nos muestra los resultados.

Estas son las páginas de Escape Digital que Google tiene indexadas, y si quiero ver la fecha de la última vez que una araña la vio:

  1. Despliego el “triangulito”.
  2. Clico en caché y aquí me muestra la fecha del último día en el que entró la
    araña.

Las etiquetas de título, descripción y palabras clave

Incluir estas etiquetas en los metatags es fundamental. Ayuda a los buscadores a clasificar cada página de nuestro sitio web. Y por otro lado da informa al usuario en los resultados de las búsquedas del contenido de la página. Lo que presentan los buscadores en las búsquedas es el título y la descripción que hayamos incluido en los metatags. Si no lo encuentra presentará otro texto que encuentre en la página que puede no corresponderse con lo que nos interesa que se vea.

Otras descripciones

  • Los textos descriptivos en las imágenes ayudan a Google a indexar la imagen
  • Descripción de vídeos y audios en texto

URLs dinámicas: Las URLs deben ser amigables y semánticas

Para facilitar la indexación se puede empezar por evitar o arreglar las variables en las URLs (URLs dinámicas) que por ejemplo puede generar el PHP. Estas variables hacen que el script muestre una u otra información en función de estas variables y a todos los efectos se consideran páginas diferentes.

Existen muchos casos donde aumentan exageradamente el número de variables, dificultando cada vez más la indexación, ya que si bien los buscadores pueden indexar páginas con varias variables, les es más fácil si no las tuviese. Para servidores que corran sobre Apache existe un mod llamado mod_rewrite que sirve para reescribir URLs, mediante el cuál y con un fichero .htaccess se puede convertir esa URL a ojos de los buscadores en otra mucho más amigable y semántica.

En los gestores de contenidos actuales, por ejemplo WordPress, existen plugins que convierten las urls dinámicas a semánticas.

Más atractiva a los ojos de los buscadores. Consulta tu hosting para averiguar sobre la disponibilidad de este módulo. Ten en cuenta que muchos scripts conocidos incorporan módulos y sistemas para convertir URLs dinámicas en estáticas, por lo que te evitarás el trabajo a veces de hacerte tu propio sistema.

Google Sitemaps

Aparte de esto existe para Google un servicio llamado Google Sitemaps que está dando muy buenos resultados en cuanto a mejorar la indexación. Existen plugins para los gestores de contenidos que generan automáticamente el fichero del sitemap y se lo envían a Google con la frecuencia que deseemos.

Pasos para indexar tu sitio web en buscadores

Envía tu sitemap usando las herramientas para Webmasters: El sitemap es un documento XML que muestra cada una de las páginas del sitio web. El sitemap le indica a los principales motores de búsqueda cuando se han añadido páginas nuevas y con qué frecuencia debe pasarse de nuevo por el sitio para encontrar actualizaciones, cambios y nuevo contenido. Si tu sitio web es un gestor de contenidos como WordPress, Joomla, Drupal, Prestashop o Magento puedes encontrar “widgets” o “componentes” que crearán automáticamente el sitemap.

Una vez hayas creado el sitemap, tendrás que visitar las Herramientas para Webmasters de Google o Herramientas para Webmasters de Bing y añadir tu mapa web en la cuenta del sitio web que hayas creado para ello.

Envía la URL de tu web directamente al buscador: La forma clásica de hacerlo, aunque no garantiza que vaya a hacerlo más rápido, sí que garantiza la indexación o, al menos, una notificación o aviso por parte del buscador informando de que la página todavía no cumple las condiciones o no tiene la calidad mínima para ser indexada. Puedes enviar tu sitio por ejemplo a Google (Submit URL) o a Bing (Submit Site URL).

Si te ha gustado este artículo únete a nuestro canal de Telegram para recibir más artículos como este o síguenos en  Twitter.

Fabian Valencia

Fabian Valencia

Diseñador gráfico y web, con ganas de trabajar y aprender todo lo posible de este campo tan variado. Creativo tanto en la vida laboral como personal. Diseñar es el arte de transmitir gráficamente lo que uno imagina. Imagina, crea, diseña.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: