¿Como ver películas completas en Megavideo?



Sabemos que Megavideo pone un límite de tiempo para la visualización de cualquier largo o cortometraje ya sea serie o película, si se supera el tiempo estimado de visualización del vídeo en Megavideo, tenemos dos opciones o esperar los 50 minutos que nos establecen para seguir viéndola o pagar la tasa que nos estipula la web.
Ahora ya tenemos solución para esta temática ya que han sacado Megastreaming, una herramienta on line que permite visualizar la película entera con un máximo de tiempo de 134 minutos, no es problema ya que la mayoría de películas duran menos de 2horas y cuarto.
Para acceder a esta herramienta pincha aquí, por último decir que no hace falta descargas y simplemente te pide la dirección en la que se encuentra el vídeo.

Saludos!

Buscar enlaces rotos de mi sitio.




Los enlaces rotos dirigidos a otras webs, son enlaces que ya no se encuentran en funcionamiento, bien porque está mal realizada la ruta o bien porque simplemente ha dejado de existir la página.

Estos enlaces rotos dificultan muchísimo la indexación de nuestras páginas en los buscadores por lo que es recomendable que estemos de vez en cuando atentos a esto y los comprobemos, para asegurarnos la indexación del sitio.

Existen herramientas tanto vía web como vía descarga, infinidad de programa los cuales te indican cuales son los enlaces que posees rotos, yo voy a nombrar una buena la herramienta vía web para no tomarnos las molestias de descargar el programa, la herramienta sería iwebtool, para entrar tenéis que pinchar aquí.

Saludos!

¿Como hacer un robot.txt?, ¿como facilitamos la vida a los buscadores?




Antes de leer esta entrada os recomiendo si no teneis idea del tema de robots, leer "Robots.txt ¿para que?, ¿Que son los Crawler?, ¿Dirigimos a los Crawler?"

Un robot.txt
como su extensión indica "txt", es un archivo de texto, el cual posee dos partes muy sencillas.

User-Agent:
Disallow:


Es así de simple, con esto ya hemos realizado un robot para comunicarnos con los buscadores.

1.- "User-Agent:" --> Aquí debemos introducir el nombre del robot que queramos interactuar con él.

2.- "Disallow:" --> Aquí introducimos si queremos acceder o no, en el robot señalado anteriormente.

2.1- Disallow:/ --> si ponemos esto, no permitimos que el robot nombrado previamente acceda a nuestro sitio.
2.2- Disallow:/here/ --> si ponemos esto, no permitimos que el robot acceda al directorio here, del mismo modo puede ser foro, o cualquier tipo de directorio (parte de la web).
2.3- Disallow: --> si ponemos esto, permitimos la entrada del robot nombrado anteriormente.

Decir por consiguiente que podemos exponer diferentes Disallow: a un mismo User-Agent, como por ejemplo:

User-agent: noxtumbot
Disallow: /links.html
Disallow: /foro/
Disallow: /photos/

De esta manera estamos diciendo que no queremos que el crawler (robot del buscador), noxtrum acceda a las páginas siquientes, /links.html, /foro/y /photos/.

Si ponemos, "#" al principio de una linea, quiere decir que podemos escribir comentarios que no interpretará el crawler, son anotaciones propias como por ejemplo:

# Crawler del buscador noxtum
User-agent: noxtumbot
Disallow: /links.html
Disallow: /foro/
Disallow: /photos/

Bueno, ahora viene una especificación que solo se realiza a dos crawler, estos son los siguientes:
Googlebot y Slurp.

Googlebot --> de Google , Slurp --> de Yahoo

hay que saber para estos especificos crawlers las especificaciones de uso, como son los caracteres: $ y *

Por ejemplo:

User-agent: Googlebot
Disallow: /*.js$
Disallow: /2009/*
Disallow: /2010/*
Disallow: /foro/*/photos/*

Estamos diciendo que no indexe los archivos que sean de índole js, (javascript), por otro lado que no indexe los ficheros con fechas determinadas, ni archivos que contengan las palabras foro ni photos, mucho cuidado con este último ya que podemos cancelar el acceso a páginas con entradas con dichos nombres.

¿Para que nos sirve esto?, como hemos comentado en la entrada anterior cada entrada que escribimos se deriva a infinidad de páginas por lo que generamos contenido repetido constantemente, voy a exponer un ejemplo sobre mi entrada anterior ya que tiene íntima relación con la entrada que estoy desarrollando, la llamé --> "Robots.txt ¿para que?, ¿Que son los Crawler?, ¿Dirigimos a los Crawler?"

Para leer la información de la entrada la podemos leer en:

La propia entrada: http://homewebmaster.blogspot.com/2010/03/robotstxt-para-que-que-son-los-crawler.html
Lo hemos insertado en diferentes etiquetas por lo que lo podemos encontrar en las etiquetas de:
Creación de Blogs: http://homewebmaster.blogspot.com/search/label/Creacci%C3%B3n%20de%20Blogs
Crear Web: http://homewebmaster.blogspot.com/search/label/Crear%20Web
etc...
además, el contenido también está en nuestro propio feed de google: http://www.google.com/reader/atom/user%2F01555335316417531947%2Flabel%2FMis%20webs_blogs
nuestro propio feed de twitter: http://twitter.com/statuses/user_timeline/49893056.rss
buscamos todos los feed en los que estamos inscritos... inclusive si tenemos nuestro blog asociado a redes sociales...

Como hemos dicho antes, existen cawer que poseen un flujo bastante alto de peticiones de información por lo que nos pueden llegar a saturar al servidor, para controlar el flujo de los mismos deberíamos hacer lo siguiente.

User-agent: noxtrum
Crawl-delay: 30

aquí decimos que el buscador noxtrum aceda a nuestra web cada 30 segundos, no menos!, decir que esta acción no funciona para google (googlebot), msn (msnbot) y yahoo (slurp).

Ahora bien, en el caso de blogger ¿como accedemos a la página txt?, simplemente no podemos acceder por lo que esto se realiza mediante etiquetas meta situadas justo debajo de la etiqueta <head>, como expreso en los ejemplo a continuación:

  • <meta name="robots" content="index,follow" />
    indica que indexe la página y todos sus enlaces (valor por defecto).

  • <meta name="robots" content="index,nofollow" />
    indica que indexe la página pero no los enlaces.

  • <meta name="robots" content="noindex,follow" />
    indica que no indexe la página pero si los enlaces.

  • <meta name="robots" content="noindex,nofollow" />
    indica que no indexe la página ni los enlaces.

En la proxima entrada explicaré de que manera podemos introducir un robot sitemap en nuestra web para facilitar el acceso de los buscadores, pondré el ejemplo con blogger que es nuestro caso pero sirve para todo tipo de blogs o webs.

Saludos!

Robots.txt ¿para que?, ¿Que son los Crawler?, ¿Dirigimos a los Crawler?




Crawler son robots externos los cuales se sitúan en los buscadores y acceden a las páginas webs o blogs para sacar información de las mismas para su posterior posicionamiento, dependiendo de diversos factores.

Por otro lado están los robots internos (robot.txt) que son archivos de texto que inyectamos en nuestra web o blog, para ponernos en contacto con los crawlers, los buscadores y recomendarles, ojo!, recomendarles, no obligarles.
El típico ejemplo de un crawler es el llamado "Googlebot", nombre que se le da al robot de google.

Si tenemos conocimiento por consiguiente de nuestros robots.txt podemos acceder a una serie de beneficios clave para nuestro posicionamiento en la web, estos beneficios pueden ser los siguientes.


1.- Personalmente el mas importante es el robot que permite quitar a nuestra web contenido duplicado, entonces aseguramos por consiguiente a los buscadores nuestro contenido único y no duplicado, esto hace aumentar nuestras visitas considerablemente.

Importante aclaración, nosotros podemos estar seguros de que no copiamos contenido de otras webs, pero no nos damos cuenta que el contenido que metemos en la web se duplica solo, por ejemplo estamos escribiendo una entrada y al publicarla, esta información se nos desvía a diferentes direcciones, una la del propio blog, otra la dirección del feed (los seguidores), si la información la ponemos en una temática determinada por ejemplo "informática" no nos damos cuenta de que la información de la entrada o post a su vez se ha desviado y por lo tanto duplicado a la temática que hayamos asignado, por otro lado la información la desviamos a la fecha, por ejemplo entradas del día "14 de marzo", si la hemos realizado ese día saldrá repetida... Conclusión: tenemos mínimo 5-6 páginas con información duplicada.

2.- Algunas veces queremos que una parte de nuestra web o blog no aparezca en los buscadores por lo que podemos prohibir a esos buscadores el acceso a determinadas partes de nuestro sitio.

3.-Posemos por otro lado establecer un sitemap para indicar el camino adecuado a los robots entrantes y facilitarles la vida, esto nos ayudará a nuestro posicionamiento también.

4.- Impedir que un robot determinado acceda a nuestra página, no todos los robots son buenos, y además sacan provecho de nuestro sitio, hay veces que poseen un flujo bastante alto de peticiones de información a nuestro sitio y puede hasta saturar al servidor, por lo que podremos controlar el flujo de los mismos.

¿Como creamos un robot? en la siguiente entrada os lo explico aunque existe en internet muchísima información sobre esta temática.

Saludos, espero ser de ayuda.