Mục đích của Google luôn là giúp tổ chức, mã hóa và sắp xếp thông tin của thế giới với mục tiêu đầu tiên của nó là những trang web thương mại. Giờ đây, hãng muốn làm điều tương tự cho cộng đồng khoa học với một công cụ tìm kiếm mới cho bộ dữ liệu.
Dịch vụ này, được gọi là Tìm kiếm dữ liệu (Dataset Search), sẽ ra mắt ngày hôm nay và là bạn đồng hành của Google Scholar, công cụ tìm kiếm phổ biến khác chuyên dành cho các nghiên cứu và báo cáo học tập. Các tổ chức, như trường đại học và chính phủ, khi đăng dữ liệu của họ lên mạng sẽ cần phải bao gồm metadata tag (các thẻ siêu dữ liệu) trong phần các trang web mô tả dữ liệu của họ, bao gồm cả người tạo ra dữ liệu, thời điểm nó được xuất bản, cách dữ liệu được thu thập, v.v. Thông tin này sau đó sẽ được index (lạp chỉ mục) bởi Dataset Search (Tìm kiếm dữ liệu) và được kết hợp với input (đầu vào) từ Google’s Knowledge Graph. (Đó là tên cho các trang sẽ bật lên khi có người tìm kiếm những thứ phổ biến. Vì vậy, nếu tập dữ liệu X được xuất bản bởi CERN - Tổ chức Nghiên cứu Hạt nhân Châu Âu - European Organization for Nuclear Research, một số thông tin về viện cũng sẽ được đưa vào kết quả.)
“MỘT CÔNG CỤ TÌM KIẾM ĐỂ KHÁM PHÁ THẾ GIỚI CỦA CÁC CƠ SỞ DỮ LIỆU TRỰC TUYẾN”
Phát biểu với The Verge, Natasha Noy, một nhà khoa học nghiên cứu tại Google AI (trợ lý ảo Al của Google), người đã giúp tạo ra Dataset Search, cho biết mục tiêu của nhóm phát triển là nhầm thống nhất hàng chục nghìn kho dữ liệu khác nhau cho các bộ dữ liệu trực tuyến (datasets online).
Tại thời điểm này, xuất bản dữ liệu là vô cùng phân mảnh. Hiện tại, các lĩnh vực khoa học khác nhau có kho lưu trữ ưa thích của riêng họ, nhưng điều này lại khác với các chính phủ và chính quyền địa phương. Các nhà khoa học cho biết, 'Tôi biết mình cần đi đâu để tìm bộ dữ liệu của mình, nhưng đó không phải là thứ tôi luôn muốn”, ông Noy chia sẻ: “Một khi họ bước ra khỏi cộng đồng độc nhất của mình, thì khi đó là lúc mọi thứ trở nên khó khăn.”
Noy đưa ra ví dụ về một nhà khoa học khí hậu mà cô đã nói chuyện gần đây, người đã nói với cô rằng việc tìm kiếm một tập dữ liệu cụ thể về nhiệt độ đại dương cho một nghiên cứu sắp tới gần như là bất khả thi bởi không thể tìm thấy nó ở bất cứ đâu. Noy đã không để ý việc này cho đến khi cô gặp một đồng nghiệp tại một hội nghị - người đã nhận ra tập dữ liệu và nói với cô nơi nó được lưu trữ. Chỉ sau đó cô mới có thể tiếp tục với công việc của mình. “Đây không phải là một kho lưu trữ đặc biệt của cửa hàng”, Noy chia sẻ. “Tập dữ liệu được viết tốt hơn sẽ ở một nơi khá nổi bật, nhưng vẫn khó tìm thấy”.
Một ví dụ tìm kiếm cho các bản ghi thời tiết trong Google Dataset Search
Bản phát hành ban đầu của Tìm kiếm dữ liệu sẽ bao gồm các ngành khoa học môi trường và xã hội, dữ liệu chính phủ và bộ dữ liệu từ các tổ chức tin tức như ProPublica. Tuy nhiên, nếu dịch vụ trở nên phổ biến, lượng dữ liệu mà nó lập chỉ mục sẽ nhanh chóng trở thành quả cầu tuyết khi các tổ chức và nhà khoa học tranh giành để làm cho thông tin của họ có thể truy cập được.
“TÔI HI VỌNG VIỆC THAM GIA CỦA GOOGLE SẼ KHIẾN MỌI THỨ DỄ DÀNG HƠN.”
Điều này có thể giúp đỡ cho sự khởi sắc gần đây của các sáng kiến dữ liệu mở trên toàn thế giới. “Tôi nghĩ rằng trong vài năm qua, số lượng kho lưu trữ đã bùng nổ” Noy chia sẻ. Bà cho rằng tầm quan trọng ngày càng tăng của dữ liệu trong tài liệu khoa học, có nghĩa là các tạp chí yêu cầu các tác giả xuất bản bộ dữ liệu, cũng như “các quy định của chính phủ ở Mỹ và châu Âu và sự phát triển chung của phong trào dữ liệu mở.”
Chính sự tham gia của Google sẽ giúp dự án này thành công, Jeni Tennison, Giám đốc điều hành của Viện dữ liệu mở (ODI) cho biết. “Tìm kiếm tập dữ liệu luôn là một điều khó khăn để hỗ trợ và tôi đã hy vọng rằng sự tham gia của Google sẽ giúp mọi việc dễ dàng hơn,” cô nói.
Để tạo ra một công cụ tìm kiếm hợp lệ, bạn cần biết cách xây dựng các hệ thống thân thiện với người dùng và hiểu ý nghĩa các cụm từ của mọi người khi họ gõ các cụm từ nhất định, Tennison nói. Google biết cần phải làm những gì trong cả hai bộ phận đó.
Trên thực tế, Tennison nói, lý tưởng nhất là Google sẽ xuất bản bộ dữ liệu của riêng mình về cách sử dụng “Dataset Search”. Mặc dù các thẻ siêu dữ liệu mà công ty đang sử dụng để hiển thị các bộ dữ liệu cho các trình thu thập tìm kiếm của nó là một tiêu chuẩn mở (có nghĩa là bất kỳ đối thủ cạnh tranh nào, như Bing hoặc Yandex, có thể sử dụng chúng để xây dựng dịch vụ cạnh tranh của riêng họ), công cụ tìm kiếm cải thiện nhanh nhất khi quan trọng hàng loạt người dùng có mặt để cung cấp dữ liệu về những gì họ đang làm.
Tennison nói rằng “Hiểu đơn giản là cách mọi người tìm kiếm rất quan trọng ... họ sử dụng loại thuật ngữ nào, cách họ thể hiện chúng. Nếu chúng ta muốn hiểu rõ hơn về cách mọi người tìm kiếm dữ liệu và làm cho nó dễ truy cập hơn, sẽ thật tuyệt nếu Google mở dữ liệu của riêng mình về điều này.”
Nói cách khác: Google nên xuất bản một tập dữ liệu về tìm kiếm tập dữ liệu sẽ được ghi thành mục lục bởi Tìm kiếm dữ liệu. Điều gì có thể thích hợp hơn?