Google quiere estandarizar un fichero de Internet que lleva más de 25 años utilizándose

Claudio Valero Publicado el 02 de julio, 2019 • 11:30

Seguro que alguna vez hemos oído hablar del archivo robots.txt. Este es un método para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Se empezó a utilizar en el año 1994 y, 25 años más tarde, Google para estandarizar el fichero de Internet robots.txt y por ello se lo han pedido a la Internet Engineering Task Force (IETF o Grupo de Trabajo de Ingeniería de Internet en castellano).

Como ya sabemos, la búsqueda en el negocio principal de Google desde sus inicios. Ahora, el gigante de Internet quiere dar un paso más en su estandarización. En este caso, hablan del Estándar de exclusión de robots o fichero robots.txt que utilizan la inmensa mayoría de páginas. Básicamente, es una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. De esta forma, se pueden excluir ciertas partes de los resultados de Google por una u otras razones.

Este se empezó a utilizar en el año 1994, por lo que estamos ante un protocolo que lleva 25 años utilizándose. El problema es que nunca se ha estandarizado como es debido pese a ser utilizado en millones de páginas web con estructuras similares. Conocido en inglés como Robots Exclusion Protocol (REP), ha sido uno de los pilares de Internet y uno de los aspectos más criticados.

robots.txt, el fichero de Internet que quiere estandarizar Google tras 25 años de uso

Ahora, Google quiere que REP o robots.txt se convierte oficialmente en un estándar de Internet. De esta forma, se armonizaría su uso entre los desarrolladores y se ampliaría para cubrir la casuística actual del momento. De hecho, Google señala que este es uno de los principales problemas de robots.txt, es decir, que no se adapta a las necesidades reales.

Por esa razón, han trabajado con el desarrollador original de robots.txt para enviar una petición formal a la Internet Engineering Task Force (IETF). Este es el organismo que deberá valorar si convierte en un estándar este mecanismo y las condiciones en que lo hace. Las cosas que deberá valorar para añadir son:

Soporte para más protocolos más allá de HTTP
Tamaño máximo para evitar la ralentización de la carga
Caché predefinida de 24 horas
Protocolo ante la imposibilidad de acceder a robots.txt por caída de la web

¿Qué os parece la propuesta de Google? ¿Debería estandarizarse robots.txt?