CRAWLING LÀ GÌ? CÁCH HOẠT ĐỘNG CRAWL TRONG SEO

Byadnhacly

Th5 9, 2022

(2)

Bạn đang đọc: CRAWLING LÀ GÌ? CÁCH HOẠT ĐỘNG CRAWL TRONG SEO

Nếu bạn đang thắc mắc Google bằng cách nào có thể hiểu được nội dung trên Website của bạn. Hãy cùng NAVEE tìm hiểu khái niệm Crawling là gì?

SEO là một nghành nghề dịch vụ rất to lớn và để hiểu hết về nó, bạn cần biết một số ít thuật ngữ cơ bản. Crawling là một trong những khái niệm cơ bản nhất mà bạn nên khám phá khi làm SEO. Vậy Crawling là gì ? Bài viết dưới đây sẽ mang đến câu vấn đáp cụ thể dành cho bạn .

Nội dung chính

1 Crawling là gì?
2 Làm thế nào để tối ưu quá trình công cụ tìm kiếm Crawling trang Web của bạn?
3 Cách để ngăn Google Crawling những dữ liệu không quan trọng trên Website
4 Cách để Google Crawling tất cả nội dung quan trọng của bạn
5 Các lỗi điều hướng phổ biến khiến Googlebot không nhìn thấy trang Web của bạn
- 5.1 Trang Web không có cấu trúc thông tin rõ ràng
- 5.2 Không sử dụng file Sitemap.xml
  - 5.2.1 Lưu ý khi sử dụng file Sitemap.xml
6 Các trình thu thập thông tin có bị lỗi khi họ cố truy cập URL của bạn không?
7 Kết luận
- 7.1 Share this:
- 7.2 Related

Crawling là gì?

Crawling ( tích lũy thông tin ) là quy trình tò mò trong đó những công cụ tìm kiếm gửi ra một nhóm Googlebot ( được gọi là trình tích lũy thông tin hoặc trình thu thập dữ liệu ) để tìm nội dung mới và update. Nội dung hoàn toàn có thể khác nhau – đó hoàn toàn có thể là website, hình ảnh, video, PDF, … nhưng bất kể định dạng nào, nội dung hầu hết được phát hiện bởi những link .
Crawling là quá trình thu thập dữ liệu trên Website được thực hiện bởi nhóm Googlebot Googlebot khởi đầu bằng cách tìm nạp một vài trang Web và sau đó theo những link trên những trang Web đó để tìm URL mới. Bằng cách này, trình tích lũy thông tin hoàn toàn có thể tìm thấy nội dung mới và thêm nó vào chỉ mục của họ có tên là Caffeine. Đây được biết đến là một cơ sở tài liệu lớn về những URL được phát hiện trải qua những link và được tìm kiếm bởi người dùng .

Làm thế nào để tối ưu quá trình công cụ tìm kiếm Crawling trang Web của bạn?

Để tối ưu quá trình Crawling, trước tiên cần kiểm tra đồ thị Crawling của Google ra sao.

Nhấn vào dòng “ Please select a property ” để xem được chỉ số Crawling của trang Web .
Chọn Website để tiến hành phân tíchTừ đây, hoàn toàn có thể đánh giá và nhận định được tần suất Crawling của Google so với Website của bạn. Qua đó, giúp đưa ra những giải pháp tương thích để cải tổ yếu tố này .
Đồ thị Crawling các trang trong 1 WebsiteCụ thể, hoàn toàn có thể liệt kê 1 số ít giải pháp giúp Google tăng tần suất Crawling những trang nội dung trong Website :

Cập nhật nội dung mới, chất lượng thường xuyên.
Tối ưu tốc độ tải trang.
Đính kèm thêm file Sitemap.xml.
Cải thiện tốc độ phản hồi từ Server dưới 200ms, theo Google.
Xóa bỏ những nội dung trùng lặp trên Website.
Chặn Googlebot quét những trang không cần thiết trong file Robots.txt.
Tối ưu hình ảnh và video (nếu có).
Tối ưu cấu trúc link nội bộ, sử dụng những Backlink chất lượng đổ về.

Cách để ngăn Google Crawling những dữ liệu không quan trọng trên Website

Hầu hết mọi người nghĩ về việc bảo vệ Google hoàn toàn có thể tìm thấy những trang quan trọng của họ. Nhưng lại quên mất rằng có những trang bạn không muốn Googlebot tìm thấy .
Những trang này hoàn toàn có thể gồm có những thứ như :

URL cũ có nội dung mỏng.
URL trùng lặp (chẳng hạn như tham số sắp xếp và bộ lọc cho thương mại điện tử).
Trang mã quảng cáo đặc biệt.
Trang dàn dựng hoặc thử nghiệm.

Dưới đây là 1 số ít cách giúp bạn ngăn Google Crawling dữ liệu không quan trọng Website của bạn .

Sử dụng Robots.txt

Để hướng Googlebot ra khỏi những trang và phần nhất định trên website của bạn, hãy sử dụng Robots. txt .

Robots.txt là gì?

Các tệp Robots. txt được đặt trong thư mục gốc của những website ( ví dụ : yourdomain.com/robots.txt ). Tệp này giúp yêu cầu phần nào trong công cụ tìm kiếm website của bạn nên và không nên thu thập dữ liệu, cũng như vận tốc chúng thu thập dữ liệu website của bạn, trải qua những thông tư đơn cử trên file Robots. txt .
Tệp Robots.txt giúp điều hướng Googlebot

Cách Googlebot xử lý tệp Robots.txt

Nếu Googlebot không thể tìm thấy tệp Robots.txt cho một trang web, nó sẽ tiến hành thu thập dữ liệu trang web.
Nếu Googlebot tìm thấy tệp Robots.txt cho một trang web, nó thường sẽ tuân theo các đề xuất và tiến hành thu thập dữ liệu trang web.
Nếu Googlebot gặp lỗi trong khi cố gắng truy cập tệp Robots.txt của trang web và không thể xác định xem có tồn tại hay không, nó sẽ không thu thập dữ liệu trang web.

Tối ưu hóa cho ngân sách thu thập

giá thành tích lũy ( Crawl Budget ) ở đây là số lượng URL trung bình Googlebot sẽ thu thập dữ liệu trên website của bạn trước khi rời khỏi .
Tính năng xem Crawl Budget trong Google Search ConsoleVì vậy, để tối ưu hóa quy trình Crawling, hãy bảo vệ rằng :

Googlebot không quét các trang không quan trọng và có nguy cơ bỏ qua các trang quan trọng của bạn.
Chặn trình thu thập thông tin truy cập nội dung mà bạn chắc chắn không quan trọng.
Không chặn quyền truy cập của trình thu thập thông tin vào các trang bạn đã thêm các chỉ thị khác, chẳng hạn như thẻ “Canonical” hoặc “Noindex”.

Cần chú ý quan tâm rằng, nếu Googlebot bị chặn từ một trang, nó sẽ không hề xem hướng dẫn trên trang link khác .

Tuy nhiên, không phải tổng thể những Robot Web đều tuân theo thông tư trong file Robots. txt. Trên thực tiễn, việc đặt vị trí của những URL đó trong tệp Robots. txt hoàn toàn có thể công khai minh bạch những nội dung riêng tư của Website. Điều đó cũng có nghĩa là những người có dự tính xấu hoàn toàn có thể thuận tiện tìm thấy chúng hơn .
Thế nên, tốt hơn hết là “ Noindex ” những trang này và đặt chúng sau một biểu mẫu đăng nhập thay vì vào tệp Robots. txt của bạn .

Xác định tham số URL trong Google Search Console

Một số Website ( phổ cập nhất với thương mại điện tử ) phân phối cùng một nội dung trên nhiều URL khác nhau bằng cách nối thêm những tham số nhất định vào URL. Điển hình là sử dụng những bộ lọc .
Ví dụ : bạn hoàn toàn có thể tìm kiếm những giày thể thao trên Shopee, sau đó tinh chỉnh tìm kiếm của bạn mẫu mã, nơi đáp ứng … Mỗi lần bạn điều khiển và tinh chỉnh, URL sẽ đổi khác một chút ít :
Thông số về hiệu suát tổng quan trong Google Search Console

Làm cách nào Google biết phiên bản URL nào sẽ phục vụ cho người tìm kiếm?

Google thực hiện công việc khá tốt khi tự mình tìm ra URL chính. Nhưng bạn có thể sử dụng tính năng Thông số URL trong Google Search Console để cho Google biết chính xác cách bạn muốn họ đối xử với các trang của mình.

Nếu bạn sử dụng tính năng này để báo cho Googlebot, thu thập dữ liệu không có URL nào có tham số, thì về cơ bản, bạn đang nhu yếu ẩn nội dung này khỏi Googlebot. Điều này hoàn toàn có thể dẫn đến việc xóa những trang đó khỏi tác dụng tìm kiếm. Đó là những gì bạn muốn nếu những tham số đó tạo những trang trùng lặp, nhưng không lý tưởng nếu bạn muốn những trang đó được lập chỉ mục .

Cách để Google Crawling tất cả nội dung quan trọng của bạn

Bây giờ bạn đã biết một số ít giải pháp để bảo vệ trình tích lũy công cụ tìm kiếm tránh xa nội dung không quan trọng của bạn. Hãy tìm hiểu và khám phá về cách tối ưu hóa hoàn toàn có thể giúp Googlebot tìm thấy những trang quan trọng của bạn .
Đôi khi một công cụ tìm kiếm sẽ hoàn toàn có thể tìm thấy những phần của website của bạn bằng cách tích lũy thông tin. Nhưng những trang hoặc phần khác hoàn toàn có thể bị che khuất vì nguyên do này hay nguyên do khác. Điều quan trọng là bảo vệ rằng những công cụ tìm kiếm hoàn toàn có thể mày mò tổng thể nội dung bạn muốn lập chỉ mục và không riêng gì trang chủ của bạn .

Hãy tự hỏi mình điều này: Googlebot có thể Crawl trang Web của bạn không?

Xem thêm: Ý nghĩa các con số từ 00 đến 99 trong kết quả xổ số

Nếu bạn nhu yếu người dùng đăng nhập, điền vào biểu mẫu hoặc vấn đáp khảo sát trước khi truy vấn một số ít nội dung nhất định, những công cụ tìm kiếm sẽ không thấy những trang được bảo vệ đó. Một trình tích lũy thông tin chắc như đinh sẽ không đăng nhập .

Bạn có đang dựa vào các hình thức tìm kiếm?

Googlebot sẽ gặp khó khăn vất vả khi quét tài liệu vì những hình thức tìm kiếm. Một số cá thể tin rằng nếu họ đặt Search Box trên trang Web của họ, công cụ tìm kiếm sẽ hoàn toàn có thể tìm thấy mọi thứ mà khách truy vấn của họ tìm kiếm. Tuy nhiên điều này hoàn toàn có thể ngăn việc Googlebot thu thập dữ liệu trên trang Web. Vì vậy hãy xem xét kỹ lưỡng trọng việc setup Search Box trong Website .

Hidden Text truyền tải nội dung qua phi văn bản

Không nên sử dụng các hình thức đa phương tiện (hình ảnh, video, GIF,…) để hiển thị văn bản mà bạn muốn được lập chỉ mục. Mặc dù các công cụ tìm kiếm đang trở nên tốt hơn trong việc nhận dạng hình ảnh, nhưng không có gì đảm bảo họ sẽ có thể đọc và hiểu nó. Thế nên, tốt nhất là thêm văn bản trong phần đánh dấu của trang Web của bạn.

Công cụ tìm kiếm có thể theo dõi điều hướng trang web của bạn?

Googlebot mày mò trang Web trải qua những Backlink từ những trang Web khác trỏ về hoặc mạng lưới hệ thống Internal Link của những trang trên tổng thể và toàn diện Website .
Nếu bạn đã có một trang mà bạn muốn những công cụ tìm kiếm tìm thấy nhưng nó không được link đến từ bất kể trang nào khác, thì nó gần như vô hình dung. Ngoài ra, một số ít Website mắc sai lầm đáng tiếc nghiêm trọng trong việc cấu trúc điều hướng của họ theo những cách không hề tiếp cận với những công cụ tìm kiếm. Điều đó làm cản trở năng lực được liệt kê trong hiệu quả tìm kiếm .

Các lỗi điều hướng phổ biến khiến Googlebot không nhìn thấy trang Web của bạn

Đây là nguyên do tại sao website của bạn có điều hướng nên rõ ràng và cấu trúc thư mục URL hữu dụng :

Không đồng nhất điều hướng trên Mobile và điều hướng trên Desktop.
Bất kỳ loại điều hướng nào trong đó các mục menu không có trong HTML, chẳng hạn như điều hướng hỗ trợ JavaScript. Google đã thu thập thông tin tốt hơn và hiểu Javascript, nhưng đây vẫn chưa phải là một quy trình hoàn hảo. Cách chắc chắn hơn để đảm bảo một cái gì đó được tìm thấy, hiểu và lập chỉ mục bởi Google là bằng cách đưa nó vào HTML.
Cá nhân hóa, hoặc hiển thị điều hướng duy nhất cho một loại khách truy cập cụ thể so với những người truy cập khác. Việc này chính là đang che giấu trình thu thập công cụ tìm kiếm.
Không liên kết đến một trang chính trên trang web.

Trang Web không có cấu trúc thông tin rõ ràng

Cấu trúc thông tin là điều hành quản lý và dán nhãn nội dung trên một website để cải tổ hiệu suất cao và năng lực tìm kiếm cho người dùng. Thế nên, kiến trúc thông tin cần phải trực quan, giúp người dùng không mất nhiều thời hạn để tìm kiếm một cái gì đó .

Không sử dụng file Sitemap.xml

Sitemap ( Sơ đồ website ) giống như một list những URL trên website của bạn mà trình tích lũy thông tin hoàn toàn có thể sử dụng để mày mò và lập chỉ mục nội dung của bạn .
Một trong những cách đơn thuần nhất để bảo vệ Google tìm thấy những trang ưu tiên cao nhất của bạn là tạo một tệp Sitemap. xml cung ứng những tiêu chuẩn của Google và gửi nó trải qua Google Search Console. Việc này giúp trình tích lũy thông tin theo một đường dẫn đến tổng thể những trang quan trọng của bạn .

Lưu ý khi sử dụng file Sitemap.xml

Khi sử dụng file Sitemap. xml, cần bảo vệ rằng :

Chỉ bao gồm các URL mà bạn muốn được công cụ tìm kiếm lập chỉ mục.
Không khai báo URL trong sơ đồ trang web nếu đã chặn URL đó qua tệp Robots.txt.
Không khai báo các URL trùng lặp.

Ngoài ra, nếu một Website không có bất kể website nào khác link, bạn vẫn hoàn toàn có thể lập chỉ mục cho nó bằng cách gửi file Sitmap. xml trong Google Search Console .

Các trình thu thập thông tin có bị lỗi khi họ cố truy cập URL của bạn không?

Trong quy trình thu thập dữ liệu URL trên website của bạn, trình tích lũy thông tin hoàn toàn có thể gặp lỗi. Bạn hoàn toàn có thể truy vấn báo cáo giải trình “ Crawl Errors ” của Google Search Console để phát hiện những URL hoàn toàn có thể đang xảy ra. Báo cáo này sẽ hiển thị cho bạn những lỗi sever và không tìm thấy lỗi. Các tệp nhật ký sever cũng hoàn toàn có thể cho bạn thấy điều này cùng với thông tin khác như tần số thu thập dữ liệu, nhưng vì việc truy vấn và phẫu thuật những tệp nhật ký sever là một giải pháp nâng cao hơn .

Mã 4xx: Khi trình thu thập công cụ tìm kiếm không thể truy cập nội dung của bạn do lỗi máy khách

Lỗi 4 xx là lỗi máy khách. Nghĩa là URL được nhu yếu chứa cú pháp sai hoặc không hề triển khai được. Một trong những lỗi 4 xx phổ cập nhất là lỗi 404. Những điều này hoàn toàn có thể xảy ra do lỗi chính tả URL, trang bị xóa hoặc chuyển hướng bị hỏng .
Khi những công cụ tìm kiếm đạt 404, họ không hề truy vấn URL. Khi người dùng đạt 404, họ hoàn toàn có thể tuyệt vọng và rời đi .

Mã 5xx: Khi trình thu nhập công cụ tìm kiếm không thể truy cập nội dung của bạn do lỗi máy chủ

Lỗi 5 xx là lỗi sever, nghĩa là sever của website bị lỗi không hề cung ứng nhu yếu của người tìm kiếm hoặc công cụ tìm kiếm để truy vấn trang. Trong báo cáo Lỗi thu thập dữ liệu của Google Search Console, có một tab dành riêng cho những lỗi này. Điều này thường xảy ra vì nhu yếu URL đã hết thời hạn, thế cho nên Googlebot đã từ bỏ nhu yếu .

Hướng giải quyết

Có một cách để nói với cả người tìm kiếm và công cụ tìm kiếm rằng trang của bạn đã chuyển dời – chuyển hướng 301 ( vĩnh viễn ) .
Giả sử bạn chuyển một trang từ : example.com/young-dogs/ sang example.com/puppies/
Công cụ tìm kiếm và người dùng cần một link để chuyển từ URL cũ sang URL mới. Liên kết đó là một chuyển hướng 301 .
Mã trạng thái 301 có nghĩa là trang Web đã vận động và di chuyển vĩnh viễn đến một vị trí mới. Do đó, tránh chuyển hướng URL đến những trang không tương quan – URL nơi nội dung của URL cũ không thực sự sống sót. Nếu một trang đang xếp hạng cho một truy vấn và bạn 301 nó đến một URL có nội dung khác. Nó hoàn toàn có thể rơi vào vị trí xếp hạng vì nội dung khiến nó tương quan đến truy vấn đơn cử đó không còn nữa .

Ảnh hưởng khi Redirect 301 và không thực hiện Redirect 301

	Khi bạn thực hiện 301	Khi bạn không thực hiện 301
Link Equity	Chuyển vốn chủ sở hữu liên kết từ vị trí cũ của trang sang URL mới	Nếu không có 301, quyền hạn từ URL trước đó sẽ không được chuyển sang phiên bản mới của URL
Indexing (lập chỉ mục)	Giúp Google tìm và lập chỉ mục phiên bản mới của trang	Chỉ riêng sự hiện diện của lỗi 404 trên trang web của bạn không gây hại cho hiệu suất tìm kiếm, nhưng để cho xếp hạng/tương tác trang 404 có thể bị loại ra khỏi chỉ mục, với thứ hạng và lưu lượng truy cập đi cùng cùng với thứ hạng và lượng tương tác
Kinh nghiệm người dùng	Đảm bảo người dùng tìm thấy trang họ đang tìm kiếm	Cho phép người truy cập nhấp vào liên kết lỗi, sẽ đưa họ đến các trang lỗi thay vì trang dự định. Điều này có thể gây khó chịu

Bạn cũng có tùy chọn 302 để chuyển hướng một trang. Nhưng điều này nên được dành riêng cho những vận động và di chuyển trong thời điểm tạm thời và trong trường hợp chuyển giao vốn link không phải là yếu tố đáng quan ngại .

Kết luận

Trên đây là những thông tin chi tiết về khái niệm Crawling là gì và cách tối ưu quá trình Google thu thập dữ liệu trên Website. Vốn rất quan trọng với những doanh nghiệp cung cấp dịch vụ SEO.

Khi bạn đã đảm bảo trang web của mình được tối ưu hóa cho quá trình Crawling dữ liệu, việc tiếp theo của doanh nghiệp là đảm bảo nó có thể được lập chỉ mục (Indexing). Hãy theo dõi bài viết tiếp theo của NAVEE để cùng tìm hiểu về Indexing nhé!

Nội dung có có ích cho bạn ? Bình chọn 5 sao nếu bạn tìm được thông tin có ích !

Xem thêm: Đầu số 0128 là mạng gì? Đầu số 0128 chuyển thành đầu số nào? – http://139.180.218.5

Xếp hạng : 5 / 5. Lượt bầu chọn : 2

Source: http://139.180.218.5
Category: Thuật ngữ đời thường