SEO là một biển kiến thức rộng lớn tưởng chừng như vô hạn cho bất kỳ ai muốn tìm hiểu về nó. Tất cả những gì chúng ta đã biết về SEO có thể chỉ là một bề nổi và chỉ như một hạt cát nhỏ giữa biển kiến thức mênh mông này. Vì vậy, để nắm vững được tất cả những kiến thức sâu rộng đó, trước tiên, nhà đầu tư SEO cần bắt đầu từ những khái niệm cơ bản nhất mà Spider, Crawler hay Bot là một phần trong đó. Hãy cùng đi sâu vào tìm hiểu những thuật ngữ nền tảng trong SEO này để có một cái nhìn rõ nét nhất về SEO và Search Engine.
Định nghĩa Spider – Crawler – Bot
Spider, Crawler hay Bot đều là những thuật ngữ dùng để mô tả một công cụ (phần mềm) thu thập dữ liệu cho các công cụ tìm kiếm – Search Engine, với tên gọi chung là Web Crawler. Phần mềm này được thiết kế để có thể duyệt website trên mạng World Wide Web một cách có hệ thống, với mục đích thu thập thông tin của những trang web đó về cho công cụ tìm kiếm (crawl dữ liệu), nhằm mục tiêu lưu chỉ mục các trang web đó vào bộ cơ sở dữ liệu của Search Engine. Đồng thời, giúp các công cụ tìm kiếm đó đưa ra những đánh giá chính xác nhất về website được thu thập dữ liệu.
Ngoài ra, Web Crawler còn được gọi với các tên hình tượng khác như Ant (con kiến), Automatic Index (Bộ lập chỉ mục tự động ) hay Web scutter. Để tìm hiểu rõ hơn tại sao lại có những cách gọi khác nhau như vậy, hãy cùng đi sâu vào tìm hiểu từng tên gọi của Web Crawler ở phần dưới đây:
Spider là gì?
Spider (Nhện) là cách gọi cọi hình tượng hóa của Web Crawler, dựa trên nguyên lý hoạt động và lưu thông tin của Web Crawler rất giống với những hoạt động của một con nhện. Bắt đầu từ một website, Spider sẽ len lỏi vào từng ngóc ngách trên trang và lần lượt truy cập vào từng liên kết có trên trang. Đánh dấu các liên kết đã truy cập và nối các trang có link với trang gốc giống như việc tạo một sợi tơ liên kết 2 trang lại với nhau. Từ một website ban đầu, Spider có thể nối thêm rất nhiều website lại thành một mạng lưới chằng chịt như một mạng nhện đích thực.
Ant là gì?
Ant (kiến) cũng là một cách gọi hình tượng tương tự spider, và cũng dựa trên cách lưu thông tin của trang và các hoạt động của Web Crawler. Mỗi khi di chuyển, một con kiến thường tiết ra pheromone lưu vết đường mà nó đã đi qua. Và việc đánh dấu liên kết lúc này của Ant cũng giống như việc tạo tơ nhện của Spider. Như vậy, đây chỉ là một cách hình tượng hóa khác của Web Crawler tương tự như Spider.
Crawler là gì?
Crawler (người hoặc con vật bò trườn) là cách gọi theo chức năng của Web Crawler, mô tả các hành động truy cập và thu thập dữ liệu của Web Crawler trên một website giống như một người hoặc một con bọ đang bò trườn trên trang đó. Như vậy, đây là một cách gọi nhân cách hóa của Web Crawler, biến một phần mềm vô tri vô giác trở nên sinh động như một sinh vật sống.
Bot là gì?
Bot hay còn gọi với tên đầy đủ là Internet Bot, là một loại web robot (World Wide Web robot) là một phần mềm ứng dụng chạy tự động trên Internet để thực hiện một số công việc đơn giản và lặp đi lặp lại theo có hệ thống cho người sử dụng. Như vậy, Web Crawler là một tập hợp con của Internet Bot. Web Crawler cũng là một loại bot được sử dụng nhiều nhất trong số các Internet Bot.
Web Crawler hoạt động như thế nào
Search Engine sử dụng Web Crawler để khám phá và tìm hiểu thông tin trên các trang web công khai hiện nay trên mạng WWW. Các công cụ thu thập thông tin này sẽ lần lượt xem các trang web và dò theo từng liên kết trên các trang đó, giống như việc chúng ta duyệt từng nội dung trên trang. Bằng việc lần lượt đi từ liên kết này tới liên kết khác, chúng thu thập dữ liệu trên các trang và đem các dữ liệu đó về cho máy chủ Search Engine.
Quá trình thu thập thông tin của Web Crawler bắt đầu với một danh sách các địa chỉ website nào đó, thường là danh sách các trang web được lưu từ những lần thu thập thông tin trước đó và danh sách các trang web mới do chủ sở hữu trang web gởi đến (submit). Và từ những trang này, chúng sẽ thu thập dữ liệu của tất cả các trang có liên quan, và đặc biệt ưu tiên các liên kết mới.
Web Crawler cũng đồng thời xác định những trang web nào cần thu thập thông tin, tần suất cũng như số lượng trang cần tìm nạp từ mỗi trang web. Chúng hoạt động hoàn toàn tự động và ít chịu sự can thiệp bởi con người. Sau khi thu thập đầy đủ dữ liệu trang, các Crawler sẽ tổng hợp những dữ liệu đó với những dữ liệu ngoài trang như số lượng backlink trỏ đến website, lượng visits,… và gửi chúng về ngân hàng dữ liệu để được xét duyệt trước khi bắt đầu index.