30 December 2016

Lấy toàn bộ dữ liệu (DATA) của Blogspot bất kỳ và cách ngăn chặn

Dữ liệu hay data chính là những bài viết, những trang trong blog. Chúng ta có thể lấy được dữ liệu đó là do 1 tính năng mà blogspot cung cấp - RSS - ATOM - Nguồn cấp dữ liệu bài đăng.
Một số người lấy dữ liệu của chính blog của họ để đăng lên site vệ tinh, cũng có một số lười viết bài nên đi ăn cắp dữ liệu của blog khác. Làm sao mà họ làm được điều đó? Dưới đây là câu trả lời:


Bước 1: Xác định tổng số bài viết của blog muốn lấy dữ liệu!


Truy cập http://dxoan.blogspot.com/p/thu-ma-html.html
Copy đoạn code sau, paste vào "Khung nhập mã" rồi ấn "Xem trước nhanh" 
<script style="text/javascript">
function showpostcount(json) {
document.write('<center>Tổng số bài: <b>' + parseInt(json.feed.openSearch$totalResults.$t,10)
+ '</b></center>');}</script>
<script src="http://diachi.blogspot.com/feeds/posts/default?alt=json-in-script&callback=showpostcount"></script>
Thay diachi.blogspot.com bằng đường link của blog bạn muốn lấy dữ liệu
Bạn sẽ thấy hiện ra "Tổng số bài" của blog đó. Việc xác định tổng số bài viết này để ta biết lấy dữ liệu từ bài bao nhiêu đến bao nhiêu. Blogspot cho import tối đa 500 bài.

Bước 2: Lấy dữ liệu về máy


Copy đường link dưới:
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=X&max-results=Y

Trong đó:
 diachi.blogspot.com : đường link blog mà bạn muốn lấy dữ liệu
 X: Bài bắt đầu lấy (Lấy từ bài đầu tiên thì X là 1)
 Y: Tổng số bài sẽ lấy tính từ X (Tổng số bài không vượt quá 500)
Ví dụ: Blog muốn lấy dữ liệu có 200 bài viết thì đường link trên sẽ là:
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=200

Để tải dữ liệu về máy bạn có 2 cách:

Cách 1: Sử dụng trình duyệt
Paste đường link đó vào trình duyệt. Chờ load xong thì click chuột phải chọn "Lưu thành". Ta sẽ lưu được 1 file .xml

Ví dụ: Blog muốn lấy dữ liệu có 200 bài thì sẽ thay X=1 và Y=200
Nếu có 1000 bài, thì bạn phải lấy 2 lần. Lần đầu X=1, Y=500 ~> Lưu file .xml; lần sau X=501, Y=1000 ~> Lưu file .xml (Mỗi lần chỉ lấy được 500 bài thôi vì blogspot cho import tối đa 500 bài)

Cách 2: Sử dụng Internet Download Manager (IDM)
Mở IDM lên ~> Ấn "Add URL" ~> Paste link trên vào rồi chọn "OK"

Cuối cùng ấn "Start  Download" để tải file

Bước 3: Nhập dữ liệu (import data) vào blog của bạn


Đăng nhập Blog ~> Cài đặt ~> Khác ~> Ấn Nhập Blog

Chọn file .xml vừa tải về để import lên blog của bạn ~> Ấn Nhập blog

Vậy là coi như đã xong!
Chú ý: Khi import xong nên đăng lấy lệ một vài bài để xóa bỏ Mã Capcha, tránh việc import quá nhiều bài cùng một lúc sẽ bị google cho là spam.
Các bạn cũng không nên import quá nhiều bài của cùng 1 blog cùng 1 lúc (khoảng 4000 bài ~.~), vì làm vậy thì blog của bạn sẽ rất dễ bị xóa. Nên lấy data của nhiều blog, mỗi blog khoảng vài chục bài sẽ tốt hơn.
Mình cũng nói luôn là hành động lấy dữ liệu này không khác gì ăn cắp vậy nên các bạn không nên suốt ngày đi ăn cắp dữ liệu của người khác mà hãy tự tay viết lên những bài viết của mình. Thêm nữa vấn đề về bản quyền tác giả hiện nay cũng rất khắt khe vậy nên các bạn cần cân nhắc kĩ trước khi muốn lấy dữ liệu của blog nào đó.

Cách cài đặt để ngăn chặn và bảo vệ dữ liệu của blogspot


Để tránh bị tình trạng lấy cắp dữ liệu, bạn hãy làm theo những bước sau để tự bảo vệ blog của mình

Đăng nhập blog ~> Cài đặt ~> Khác ~> Tại phần "Cho phép nguồn cấp dữ liệu blog" Chọn "Cho đến dấu ngắt" rồi "Lưu cài đặt" lại

Làm xong như trên thì khi ai đó lấy cắp dữ liệu của blog bạn thì sẽ chỉ lấy được từ đầu bài viết đến phần có dấu ngắt thôi :)
Nếu template bắt buộc phải đặt full data thì ta nên tạo thêm 1 đoạn giới thiệu ,để khi bài viết bị lấy cắp người đọc biết nguồn xuất phát từ đâu. Tại phần "Chân trang nguồn cấp dữ liêu bài đăng" chọn thêm và đánh nội dung vào như hình dưới. (Cái này bạn làm thêm hay không cũng được)
------------------------------------------
Quan trọng:
Bây giờ, mỗi khi đăng bài, bạn cần chèn dấu ngắt nhảy cho bài viết để khi ai đó lấy dữ liệu thì cũng chỉ lấy được đến dấu ngắt là hết.
Cách chèn dấu ngắt nhảy:
Cách 1:
- Đặt con trỏ chuột vào vị trí cần ngắt, tốt nhất là ở sau bức hình đầu tiên hoặc sau 1 đoạn văn ngắn phần đầu.
- Ấn nút "Chèn dấu ngắt nhảy" trên thanh bài viết

Cách 2:
- Chọn chế độ "HTML", thêm code <!--more--> sau bức hình đầu tiên hoặc sau 1 đoạn văn ngắn phần đầu.

Cuối cùng đã xong, chúc các bạn thành công !


Bài 2:

Bước 1: Tải data của blog
- Tìm danh sách các blogspot trên mạng có những bài viết hay và cùng chủ đề.
- Kiểm tra xem blog đó có bao nhiêu bài viết.
Truy cập vào Link: http://goo.gl/DzWgaE
Copy đoạn code trong đường Link sau vào đó và chú ý là thay địa chỉ blog cần kiểm tra vào đó:
https://www.dropbox.com/s/aj473nvwkyflq2p/checkdata blogspot.txt
- Sử dụng IDM để tải lần lượt các file *xml về.
Chạy IDM và Paste được Link sau vào phần Add Url:
http://diachi.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=10
Trong đó, thay đổi địa chỉ blogspot và 2 tham số 1,10 hai tham số này chỉ 10 bài viết mới nhất của blogspot đó. Các bạn có thể thay đổi nếu cần, cá nhân tôi xử dụng 1-20. Sau khi tải về thì file sẽ có dạng *xml. Kinh nghiệm của tôi bạn nên đặt tên file như sau:
tenblognguon01, tenblognguon02,...
đặt tên như này giúp bạn biết được nguồn dữ liệu này từ đâu và có thể phân chia post lên nhiều blog khác mà không sợ trùng nội dung.
- Chú ý: Đương nhiên bạn có thể tải 1 file data lớn khoảng 4000 bài viết về và post 1 phát là blog bạn có 4000 bài ngay, tuy nhiên khả năng google ban nick của bạn là 90%. Cá nhân tôi đã tải 1 data 4500 và đã post lên tuy nhiên tôi chưa cho google index nên giờ nó vẫn sống :D.
Bước 2: Xây dựng blogspot
- Tạo một blogspot mới với tên miền là từ khóa
- Import data vào
Các bạn làm theo hướng dẫn ảnh. Chú ý trong quá trình import ảnh đó thì bỏ dấu tích “Tự động xuất bản tất cả các bài đăng đã nhập”. Sau khi import xong thì chúng ta tới bước chỉnh nội dung.
- Sử dụng phần mềm WYSIWYG BBCode Editor để xóa toàn bộ Link và Link ảnh.
seo master làm chủ công việc của bạn
Các data blog tải về sẽ dữ nguyên các link anchor text và link ảnh, công việc của chúng ta đó là xóa toàn bộ nó đi và thay bằng link ảnh của mình. Sử dụng công cụ WYSIWYG BBCode Editor để thực hiện việc đó, chỉ cần copy toàn bộ bài vào đó và chọn Unlink xong lại copy ngược lại là ok.
Bước 3: Đăng sitemap và ping blogspot và chờ cho Google Index
Sau quá trình đăng bài, thì chúng ta phải Add site map vào Google Webmaster Tool và Ping để Google index bài chúng ta một cách nhanh nhất.
Truy cập Google Webmaster Tools/Sơ đồ trang web/thêm đoạn code sau:
atom.xml?redirect=false&start-index=1&max-results=500
Tiếp trong phần đó ta chọn “Tìm nạp như Google” và thực hiện tìm nạp blog của chúng ta.
Vậy là xong, bây giờ đi tạo tiếp 20 cái nữa thôi :D. Sau khoảng vài ngày quay lại kiểm tra index nhé.
Bước 4: Theo dõi, đánh giá và đặt Link.
Sau quá trình đó chúng ta cần theo dõi đánh giá hiệu quả bằng cách kiểm tra tỷ lệ số bài được index/số bài viết. Ngoài ra, có thể sử dụng code tự động chèn liên kết với 1 từ khóa bất kỳ trong toàn bộ blog, cái này SEO rất ok. Tôi xin viết bài viết sau về công cụ này.
Chú ý LỚN:
Hẳn là các blogspot hiện nay trên thị trường đều có thể lấy data theo cách này, tuy nhiên nếu blogspot của bạn có chất lượng và không muốn có người khác CHÔM về thì thực hiện như sau:

Khi đó người khác sẽ không thể tải data của bạn về mà chỉ có cách là copy bằng tay thôi

This Is The Newest Post


EmoticonEmoticon