BOTS ‘SCRAPER’ Y LA RAZA SECRETA DE ARMAS DE INTERNET

LAS EMPRESAS ESTÁN VIGILANDO una guerra invisible de datos en línea. Y tu teléfono podría ser un soldado involuntario

Los minoristas de Amazon y Walmart a pequeñas empresas quieren saber lo que cobran sus competidores. Los minoristas de ladrillo y mortero pueden enviar personas, a veces llamadas “compradores misteriosos”, a las tiendas de sus competidores para tomar notas sobre los precios.

En línea, no hay necesidad de enviar personas a ningún lado. Pero los grandes minoristas pueden vender millones de productos, por lo que no es factible que los trabajadores examinen cada elemento y ajusten los precios manualmente. En cambio, las compañías emplean software para escanear sitios web rivales y recopilar precios, un proceso llamado “raspado”. A partir de ahí, las empresas pueden ajustar sus propios precios.

Compañías como Amazon y Walmart tienen equipos internos dedicados al raspado, dice Alexandr Galkin, director ejecutivo de la compañía de optimización de precios minoristas Competera. Otros recurren a compañías como la suya. Competera elimina datos de fijación de precios de toda la web, para empresas que van desde minoristas de calzado, Nine West, hasta la empresa industrial Deelat, y utiliza algoritmos de aprendizaje automático para ayudar a sus clientes a decidir cuánto cobrar por diferentes productos.
Walmart no respondió a una solicitud de comentarios. Amazon no respondió preguntas sobre si raspa otros sitios. Pero los fundadores de Diapers.com, que Amazon adquirió en 2010, acusaron a Amazon de usar esos bots para ajustar automáticamente sus precios, según el libro de Brad Stone, The Everything Store.

El raspado puede sonar siniestro, pero es parte de cómo funciona la web. Google y Bing raspan páginas web para indexarlas para sus motores de búsqueda. Académicos y periodistas utilizan software de raspado para recopilar datos. Algunos de los clientes de Competera, incluidos Acer Europa y Panasonic, utilizan el servicio de “inteligencia de marca” de la compañía para ver qué cobran los minoristas por sus productos, para asegurarse de que cumplan con los acuerdos de precios.

Para los minoristas, el raspado puede ser una calle de doble sentido, y ahí es donde las cosas se ponen interesantes. Los minoristas quieren ver lo que hacen sus rivales, pero quieren evitar que los rivales los fisgoneen; los minoristas también quieren proteger la propiedad intelectual, como fotos y descripciones de productos, que otros pueden raspar y reutilizar sin permiso. Muchos despliegan defensas para subvertir el raspado, dice Josh Shaul, vicepresidente de seguridad web de Akamai Technologies. Una técnica: mostrar precios diferentes a personas reales que a bots. Un sitio puede mostrar el precio como astronómicamente alto o cero para arrojar bots recolectando datos.

Tales defensas crean oportunidades para nuevas ofensas. Una compañía llamada Luminati ayuda a los clientes, incluidos Competera, a enmascarar bots para evitar la detección. Un servicio hace que los bots parezcan provenir de teléfonos inteligentes.

El servicio de Luminati puede asemejarse a una red de bots, una red de computadoras que ejecuta malware y que los hackers usan para lanzar ataques. Sin embargo, en lugar de hacerse cargo secretamente de un dispositivo, Luminati tienta a los propietarios de dispositivos a aceptar su software junto con otra aplicación. Los usuarios que descargan MP3 Cutter de Beka para Android, por ejemplo, tienen una opción: ver anuncios o permitir que la aplicación use “algunos de los recursos de su dispositivo (WiFi y datos móviles muy limitados)”. Si acepta dejar que la aplicación use sus recursos, Luminati utilizará su teléfono por unos segundos al día cuando no tenga que enrutar las solicitudes de los bots de sus clientes, y le pagará una tarifa al fabricante de la aplicación. Beka no respondió a una solicitud de comentarios.

La batalla continua de bot y mouse plantea una pregunta: ¿cómo se detecta un bot? Eso es complicado. A veces, los robots realmente dicen a los sitios que están visitando que son bots. Cuando una pieza de software accede a un servidor web, envía un poco de información junto con su solicitud de la página. Los navegadores convencionales se anuncian como Google Chrome, Microsoft Edge u otro navegador. Los Bots pueden usar este proceso para decirle al servidor que son robots. Pero también pueden mentir. Una técnica para detectar bots es la frecuencia con la que un visitante visita un sitio. Si un visitante hace cientos de solicitudes por minuto, hay muchas posibilidades de que sea un bot. Otra práctica común es mirar la dirección del protocolo de internet del visitante. Si proviene de un servicio de computación en la nube, por ejemplo, eso es una pista de que podría ser un bot y no un usuario regular de Internet.

Shaul dice que técnicas como ocultar el tráfico de los bot ha hecho que sea “casi inútil” depender de una dirección de Internet. Las captchas pueden ayudar, pero crean un inconveniente para los usuarios legítimos. Entonces Akamai está intentando algo diferente. En lugar de simplemente buscar los comportamientos comunes de los bots, busca los comportamientos comunes de los humanos y deja pasar a esos usuarios.

Cuando toca un botón en su teléfono, mueve el teléfono ligeramente. Ese movimiento puede ser detectado por el acelerómetro y el giroscopio del teléfono y enviado a los servidores de Akamai. La presencia de datos de movimiento minuto es una pista de que el usuario es humano, y su ausencia es una pista de que el usuario podría ser un bot.

El CEO de Luminati, Ofer Vilenski, dice que la compañía aún no ofrece una solución a esto, porque es una práctica relativamente poco común. Pero Shaul piensa que es solo cuestión de tiempo antes de que los fabricantes de botes se den cuenta. Entonces será el momento de otra ronda de innovaciones. Así es la carrera de armamentos de internet bot.

Buenos Bots y Bad Bots

Un gran desafío para Akamai y otros que intentan administrar el tráfico relacionado con bot es la necesidad de permitir que algunos, pero no todos, bots raspen un sitio. Si los sitios web bloquean completamente los bots, no aparecerían en los resultados de búsqueda. Los minoristas generalmente también quieren que sus precios y artículos aparezcan en sitios de comparación de compras como Google Shopping, Price Grabber y Shopify.

“Realmente hay muchos escenarios diferentes donde el raspado se usa en Internet para bien, para mal, o en algún lugar en el medio”, dice Shaul. “Tenemos una tonelada de clientes en Akamai que han venido a nosotros para ayudarnos a manejar el problema general de los robots, en lugar de los humanos, que visitan su sitio”.

Algunas empresas raspan sus propios sitios. Andrew Fogg es el CEO de una compañía llamada Import.io, que ofrece herramientas basadas en la web para raspar datos. Fogg dice que uno de los clientes de Import.io es un gran minorista que tiene dos sistemas de inventario, uno para sus operaciones de almacén y otro para su sitio de comercio electrónico. Pero los dos sistemas frecuentemente no están sincronizados. Entonces, la empresa roba su propio sitio web para buscar discrepancias. La compañía podría integrar sus bases de datos más de cerca, pero raspar los datos es más rentable, al menos en el corto plazo.

Otros raspadores viven en un área gris. Shaul señala a la industria de las aerolíneas como un ejemplo. Los sitios de comparación de precios de viajes pueden enviar negocios a las aerolíneas, y las aerolíneas quieren que sus vuelos aparezcan en los resultados de búsqueda de esos sitios. Pero muchas aerolíneas confían en compañías externas como Amadeus IT y Sabre para administrar sus sistemas de reserva. Cuando busca información de vuelo a través de esas aerolíneas, la aerolínea a veces debe pagar una tarifa al sistema de reserva. Esas tarifas pueden sumarse si una gran cantidad de bots comprueban constantemente el asiento de una aerolínea y la información sobre precios.

Shaul dice que Akamai ayuda a resolver este problema para algunos clientes de aerolíneas al mostrar información de precios almacenados en bots, para que las aerolíneas no consulten a las compañías externas cada vez que un bot comprueba los precios y la disponibilidad. Los bots no obtendrán la información más actualizada, pero obtendrán datos razonablemente nuevos sin que les cueste demasiado a las aerolíneas.

Sin embargo, otro tipo de tráfico es claramente problemático, como los ataques distribuidos de denegación de servicio o DDoS, que pretenden desbordar un sitio al inundarlo de tráfico. Amazon, por ejemplo, no bloquea los bots directamente, incluidos los raspadores de precios, dice un vocero. Pero la compañía “prioriza a los humanos sobre los bots cuando es necesario para garantizar que proporcionamos la experiencia de compra que nuestros clientes esperan de Amazon”.

Fogg dice que Import.io no se bloquea mucho. La compañía trata de ser un “buen ciudadano” evitando que su software llegue a los servidores con demasiada frecuencia o que use demasiados recursos.

Vilenski dice que los clientes de Luminati tienen buenas razones para fingir que no son robots. Algunos editores, por ejemplo, quieren asegurarse de que los anunciantes muestren a los visitantes de un sitio los mismos anuncios que muestran a los editores.

Aún así, el modelo de negocios de la compañía causó sorpresa en 2015 cuando se utilizó un servicio similar de su empresa hermana, Hola VPN, para lanzar un ataque DDoS en el sitio web 8chan. A principios de este mes, la extensión de Chrome de Hola VPN fue acusada de ser utilizada para robar contraseñas de los usuarios del servicio de criptomonedas MyEtherWallet. En una publicación de blog, Hola VPN dijo que su cuenta de la tienda Google Chrome se vio comprometida, permitiendo a los atacantes agregar malware a su extensión. Vilenski dice que la compañía investiga cuidadosamente a sus clientes, incluida una videollamada y los pasos para verificar la identidad del posible cliente. Se negó a comentar sobre supuestos usos maliciosos del servicio de Luminati. Polémico o no, Vilenski dice que el negocio de la compañía se ha triplicado en el último año.

Fuente:https://www.wired.com/story/scraper-bots-and-the-secret-internet-arms-race/

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *