Chúng ta cần làm NHư Сау:
1. Lấy dữ liệu từ Google
Chúng ta sử dụng Google Mailout để lấy dữ liệu lịch sử của mình Tiếp theo chúng ta làm theo hướng dẫn của google careat. KHI HOAN TấT CHúNG TA Sẽ NHậN đượC Email Thông Báo Từ Google. Chúng ta vào link đính Kèm Email Sẽ đượC NHư Sau: Giờ chúng ta sẽ tải xuống toàn bộ lịch sử sử chúng ta truy cập. Lưu ý: dữ liệu này sẽ là dữ liệu từ kh khoản Google Google Tới Luci Hiện Tại Này. Nếu không Thi Nó Sẽ Tích Từ Lần Bạn Xoá Dữ Liệu Lịch Sử Lưu Trên Lện Cuối.
2. Sử Dụng Google Colab để LọC Dữ Liệu
Mình Sử Dụng Luôn Google Colab để xử lý đống này. Thêm Thư Viện
import pandas as pd import warnings warnings.filterwarnings('ignore') import seaborn as sns import matplotlib.pyplot as plt
Загрузить файл BrowserHistory.json
và đọc nó.
actress = pd.read_json('BrowserHistory.json') actress.head()
Lọc dữ liệu.
df = pd.DataFrame(actress['url'],columns=['url']) df[df.url.str.contains('.*github.*')].to_json(\"rex.json\",orient='split')
Kết quả là một danh sách các url có từ гадость
тройник đđ
3. Xử lý trùng lặp và lấy dữ liệu mình cần
Mình mở файл Rex.json
Bằng Sublime Text Và Bắt đầu Sửa. Đầu tiên chúng ta sẽ format lại đinh dạng để dễ nhìn hơn Lấy những url github thoả mãn bằng Regex
Tiếp là loại bỏ toàn bộ trùng lặp bằng một công cụ online https://codebeautify.org/remove-duplicate-lines.lines. Lúc nÀy dữ liệu đđ đượđượ loại bỏ trùng được nhưng vẫn chưa được nhưư ý. Tôi Muốn Lấy Những Repository Github Thôi Phải Làm Sao. Công Cụ Tôi Nghĩ Ngay Là Excel Giờ chúng ta chỉ giữ lại những cột cần dù để được ết quả. Chúng ta có thể sử dụng có cụ loại bỏ trùng lặp trong Excel để loại bỏ những dữ liệu trùgng Đây là kết quả cuối cùng Như vậy chúng ta đđ lọc được theo ýnh lịch sử những trang mà mình truy cập. Cách làm trên thực sự không phải là hoàn hảo nhưnh do mình vừa Поиск vừa làm nên nó có có có có có có có có có có có có có có có có có có có có có lộn xộn. SAU NAY KHI HọC NHIềU HơN Mình Sẽ Обновление NHữNG Cách Tối ưu Hơn 😄 Để xử lý những cái trên hiệu quả và thông minh hơn chúng ta nên học thêm về:
Ngoài Ra nếu với lượng dữ liệu nhỏ bạn hoàn toàn có ể ù ù Excel để xử lý lọc dữ liệu bằng những hÀm có sẵn.
Оригинал: “https://dev.to/npv2k1/lam-th-nao-d-tim-l-i-nh-ng-trang-web-hay-ma-minh-da-t-ng-truy-c-p-9n3”