Bot Thu Thập Dữ Liệu Và Cuộc Chiến Dữ Liệu Ngầm

Hoàng Trịnh
14/12/2019 - 10:00 5344     0

Các công ty triển khai các bot bảo mật để thâm nhập vào các trang web của đối thủ. Các đối thủ này sẽ cố gắng nhận diện và chặn các bot bảo mật thâm nhập vào, đồng thời tạo nên một cuộc chạy đua tiếp tiến.

Các công ty đang có một cuộc chiến dữ liệu vô hình thông qua hình thức trực tuyến. Và điện thoại của bạn có thể là một người lính vô tình.

Các nhà bán lẻ từ Amazon và Walmart cho đến các công ty khởi nghiệp nhỏ muốn biết đối thủ của họ tính phí gì. Các nhà bán lẻ truyền thống có thể gửi người, đôi khi được gọi là "người mua sắm bí ẩn" đến các cửa hàng của đối thủ cạnh tranh để ghi chú về giá cả.

Trực tuyến, không cần phải gửi người ở bất cứ đâu. Nhưng các nhà bán lẻ lớn có thể bán hàng triệu sản phẩm, vì vậy không hợp lý khi có nhân viên duyệt từng mặt hàng và điều chỉnh giá thủ công. Thay vào đó, các công ty sử dụng phần mềm để quét các trang web đối thủ và thu thập giá, một quy trình được gọi là “scraping”. Từ đó, các công ty có thể tự điều chỉnh giá của mình.

Alexandr Galkin, Giám đốc điều hành của công ty tối ưu hóa giá bán lẻ cạnh tranh Competara cho biết, các công ty như Amazon và Walmart có các nhóm nội bộ chuyên nghiên cứu thu thập giá. Những người khác thì tìm đến các công ty như của ông ấy. Compertera thu thập thấp dữ liệu về giá từ khắp các trang web, từ các công ty từ nhà bán lẻ giày dép Nine West cho đến nhà sản xuất công nghiệp Deelat và sử dụng các thuật toán học của máy để giúp khách hàng của mình quyết định tính phí bao nhiêu cho các sản phẩm khác nhau.

Walmart đã không phản hồi yêu cầu bình luận. Amazon cũng đã không trả lời các câu hỏi về việc liệu nó có thu thập dữ liệu từ các trang web khác hay không. Nhưng những người sáng lập Diapers.com, được Amazon mua lại vào năm 2010, đã cáo buộc Amazon sử dụng các bot như vậy để tự động điều chỉnh giá của nó, theo cuốn sách The Everything Store của Brad Stone.

Việc dò quét thông tin có vẻ nham hiểm, nhưng nó là một phần trong cách thức hoạt động của web. Google và Bing thu thập các trang web để lập chỉ mục cho các công cụ tìm kiếm của họ. Các học giả và nhà báo sử dụng phần mềm quét thông tin để thu thập dữ liệu. Một số khách hàng của Competera, bao gồm Acer Châu Âu và Panasonic, sử dụng dịch vụ thương hiệu thông minh của công ty trực tuyến để xem những gì các nhà bán lẻ đang tính phí cho sản phẩm của họ, để đảm bảo rằng họ đang tuân thủ các thỏa thuận về giá.

Đối với các nhà bán lẻ, việc dò quét thu thập thông tin có thể là một con dao hai lưỡi, và đó là lúc khi mà mọi thứ trở nên thú vị. Các nhà bán lẻ muốn xem đối thủ của họ đang làm gì, nhưng họ muốn ngăn chặn các đối thủ rình mò họ; các nhà bán lẻ cũng muốn bảo vệ tài sản trí tuệ như hình ảnh và mô tả sản phẩm, có thể được loại bỏ và tái sử dụng mà không cần sự cho phép của người khác. Vì vậy, nhiều công ty triển khai phòng thủ để lật đổ cào, Josh Shaul, phó chủ tịch bảo mật web tại Akamai Technologies nói. Một kỹ thuật: hiển thị giá khác nhau cho người thực so với bot. Một trang web có thể hiển thị giá là cao một  cách không tưởng hoặc bằng không để ngăn cản bot khỏi thu thập dữ liệu.

Phòng thủ như vậy tạo ra cơ hội cho các phương pháp mới. Một công ty có tên Luminati giúp khách hàng, bao gồm cả Competera, bot ẩn danh để tránh bị phát hiện. Một dịch vụ làm cho các bot dường như đến từ điện thoại thông minh.

Dịch vụ Luminati, có thể giống với một botnet, một mạng lưới các máy tính chạy phần mềm độc hại mà tin tặc sử dụng để khởi động các cuộc tấn công. Tuy nhiên, thay vì tình cờ tiếp quản một thiết bị, Luminati lôi kéo chủ sở hữu thiết bị chấp nhận phần mềm của nó cùng với một ứng dụng khác. Chẳng hạn, người dùng tải xuống MP3 Cutter từ Beka cho Android được lựa chọn: Xem quảng cáo hoặc cho phép ứng dụng sử dụng "một số tài nguyên trên thiết bị của bạn (WiFi và dữ liệu di động rất hạn chế). Nếu bạn đồng ý cho phép ứng dụng sử dụng tài nguyên của bạn, Luminati sẽ sử dụng điện thoại của bạn trong vài giây mỗi ngày khi rảnh rỗi để định tuyến các yêu cầu từ bot của khách hàng và trả phí cho nhà sản xuất ứng dụng. Beka không trả lời yêu cầu nhận xét.

Cuộc chiến bot và chuột đang diễn ra đặt ra một câu hỏi: Làm thế nào để bạn phát hiện ra bot? Điều đó khó khăn. Đôi khi các bot thực sự nói với các trang web mà họ đang truy cập rằng họ là các bot. Khi một phần mềm truy cập vào một máy chủ web, nó sẽ gửi một ít thông tin cùng với yêu cầu của nó cho trang. Các trình duyệt thông thường tự công bố là Google Chrome, Microsoft Edge hoặc một trình duyệt khác. Bots có thể sử dụng quy trình này để nói với máy chủ rằng chúng là bot. Nhưng họ cũng có thể nói dối. Một kỹ thuật để phát hiện các bot là tần suất khách truy cập truy cập vào một trang web. Nếu một khách truy cập thực hiện hàng trăm yêu cầu mỗi phút, thì có khả năng đó là một bot. Một thực tế phổ biến khác là xem xét một địa chỉ giao thức internet của khách truy cập. Ví dụ, nếu nó xuất phát từ một dịch vụ điện toán đám mây, thì đó là một gợi ý rằng đó có thể là bot chứ không phải người dùng internet thông thường.

Shaul nói rằng các kỹ thuật như ngụy trang lưu lượng bot đã khiến cho nó gần như vô dụng khi phải dựa vào một địa chỉ internet. Captchas có thể giúp đỡ, nhưng chúng tạo ra sự bất tiện cho người dùng hợp pháp. Vì vậy, Akamai đang thử một cái gì đó khác nhau. Thay vì chỉ tìm kiếm những hành vi phổ biến của bot, nó tìm kiếm những hành vi phổ biến của con người và cho phép những người dùng đó vượt qua.

"Thực sự có rất nhiều tình huống khác nhau trong đó việc cạo được sử dụng trên internet là tốt, xấu hoặc ở đâu đó ở giữa."

JOSH SHAUL, CÔNG NGHỆ AKAMAI

Khi bạn nhấn một nút trên điện thoại, bạn sẽ di chuyển điện thoại một chút. Chuyển động đó có thể được phát hiện bằng gia tốc kế và con quay hồi chuyển của điện thoại và gửi đến máy chủ của Akamai. Sự hiện diện của dữ liệu chuyển động phút là một đầu mối mà người dùng là con người và sự vắng mặt của nó là một đầu mối mà người dùng có thể là một bot.

Giám đốc điều hành của Luminati, Ofer Vilenski nói rằng công ty chưa đưa ra cách nào để giải quyết vấn đề này, bởi vì đó là một thực tế tương đối hiếm gặp. Nhưng Shaul nghĩ rằng đó chỉ là vấn đề thời gian trước khi các nhà sản xuất bot bắt kịp. Sau đó sẽ là thời gian cho một vòng đổi mới khác. Cuộc đua vũ trang bot trên internet cũng vậy.

Bots tốt và Bots xấu

Một thách thức lớn đối với Akamai và những người khác đang cố gắng quản lý lưu lượng liên quan đến bot là cần phải cho phép một số, nhưng không phải tất cả, các bot để quét một trang web. Nếu các trang web chặn hoàn toàn bot, chúng sẽ không hiển thị trong kết quả tìm kiếm. Các nhà bán lẻ thường muốn giá cả và các mặt hàng của họ xuất hiện trên các trang web so sánh mua sắm như Google Mua sắm và Giá Grabber.

Shaul nói: "Thực sự có rất nhiều tình huống khác nhau trong đó việc dò quét thông tin được sử dụng trên internet là tốt, xấu hoặc chưa rõ tốt xấu". "Chúng tôi có rất nhiều khách hàng tại Akamai, những người đã đến với chúng tôi để giúp chúng tôi quản lý vấn đề chung của robot, thay vì con người, ghé thăm trang web của họ."

Một số công ty giúp thu thập thông tin từ các trang web riêng của họ. Andrew Fogg là người đồng sáng lập của một công ty có tên là Import.io, chuyên cung cấp các công cụ dựa trên web để cạo dữ liệu. Fogg cho biết một trong những khách hàng của Import.io là một nhà bán lẻ lớn có hai hệ thống hàng tồn kho, một cho hoạt động kho và một cho trang thương mại điện tử. Nhưng hai hệ thống thường không đồng bộ. Vì vậy, công ty loại bỏ trang web riêng của mình để tìm kiếm sự khác biệt. Công ty có thể tích hợp cơ sở dữ liệu chặt chẽ hơn, nhưng việc thu thập dữ liệu có hiệu quả hơn về chi phí, ít nhất là trong ngắn hạn.

Những phương tiện thu thập dò quét thông tin khác vẫn không rõ là tốt hay xấu. Shaul  lấy ngành hàng không là một ví dụ. Các trang web so sánh giá du lịch có thể kết nối doanh nghiệp đến các hãng hàng không và các hãng hàng không muốn các chuyến bay của họ hiển thị trong kết quả tìm kiếm cho các trang web đó. Nhưng nhiều hãng hàng không phụ thuộc vào các công ty bên ngoài như Amadeus IT và Saber để quản lý hệ thống đặt chỗ của họ. Khi bạn tra cứu thông tin chuyến bay qua các hãng hàng không đó, đôi khi hãng phải trả phí cho hệ thống đặt vé. Những khoản phí đó có thể tăng thêm nếu một số lượng lớn bot liên tục kiểm tra chỗ ngồi của hãng hàng không và thông tin về giá

Shaul nói Akamai giúp giải quyết vấn đề này cho một số khách hàng của hãng hàng không bằng cách hiển thị thông tin về bộ nhớ cache của bot, để các hãng hàng không truy vấn các công ty bên ngoài mỗi khi bot kiểm tra giá cả và tính sẵn sàng. Các bot đã giành được những thông tin cập nhật nhất, nhưng họ sẽ nhận được dữ liệu mới một cách hợp lý mà không phải trả nhiều tiền cho các hãng hàng không.

Tuy nhiên, lưu lượng truy cập khác rõ ràng là có vấn đề, chẳng hạn như các cuộc tấn công từ chối dịch vụ phân tán hoặc DDoS, nhằm mục đích áp đảo một trang web bằng cách làm ngập lưu lượng truy cập. Amazon, là một ví dụ của việc không chặn các bot hoàn toàn, bao gồm cả người dọn dẹp giá cả, người phát ngôn nói. Tuy nhiên, công ty đã ưu tiên con người hơn bot khi cần thiết để đảm bảo chúng tôi cung cấp trải nghiệm mua sắm mà khách hàng mong đợi từ Amazon.

Fogg nói rằng Import.io không bị chặn nhiều. Công ty cố gắng trở thành một "công dân tốt" bằng cách giữ cho phần mềm của họ không tấn công máy chủ quá thường xuyên hoặc sử dụng nhiều tài nguyên.

Vilenski nói rằng khách hàng của Luminati có lý do chính đáng để giả vờ không phải là bot. Ví dụ như một số nhà xuất bản muốn đảm bảo các nhà quảng cáo đang hiển thị một trang web xem người xem cùng một quảng cáo mà họ hiển thị cho nhà xuất bản.

Tuy nhiên, mô hình kinh doanh của công ty đã gây chú ý vào năm 2015 khi một dịch vụ tương tự từ công ty chị em của nó, Hola VPN, được sử dụng để khởi động một cuộc tấn công DDoS trên trang web 8chan. Đầu tháng này, tiện ích mở rộng Hola VPN VPN Chrome đã bị cáo buộc sử dụng để đánh cắp mật khẩu của người dùng dịch vụ tiền điện tử MyEtherWallet. Trong một bài đăng trên blog, Hola VPN cho biết tài khoản Google Chrome Store của họ đã bị xâm phạm, cho phép kẻ tấn công thêm phần mềm độc hại vào tiện ích mở rộng của nó. Vilenski nói rằng công ty đã cẩn thận kiểm tra khách hàng của mình, bao gồm một cuộc gọi video và các bước để xác minh danh tính khách hàng tiềm năng. Ông từ chối bình luận về việc sử dụng dịch vụ Luminati, bị cáo buộc là độc hại. Tranh cãi hay không, Vilenski nói rằng hoạt động kinh doanh của công ty đã tăng gấp ba lần trong năm qua.

 

Nguồn : SAGA.VN
Hoàng Trịnh
Hoàng Trịnh