Рубрики
Без рубрики

Làm thế nà để Tìm Lại Những Trang Web Hay Mà Mình đđ Từng Truy CậP

Chúng ta cần làm như sau: 1. Lấy dữ liệu từ Google Chúng Ta Sử Dụng Google Mailout để … Помечено Python, Excel, Chrome, Pandas.

Chúng ta cần làm NHư Сау:

1. Lấy dữ liệu từ Google

Chúng ta sử dụng Google Mailout để lấy dữ liệu lịch sử của mình Tiếp theo chúng ta làm theo hướng dẫn của google careat. KHI HOAN TấT CHúNG TA Sẽ NHậN đượC Email Thông Báo Từ Google. Chúng ta vào link đính Kèm Email Sẽ đượC NHư Sau: Giờ chúng ta sẽ tải xuống toàn bộ lịch sử sử chúng ta truy cập. Lưu ý: dữ liệu này sẽ là dữ liệu từ kh khoản Google Google Tới Luci Hiện Tại Này. Nếu không Thi Nó Sẽ Tích Từ Lần Bạn Xoá Dữ Liệu Lịch Sử Lưu Trên Lện Cuối.

2. Sử Dụng Google Colab để LọC Dữ Liệu

Mình Sử Dụng Luôn Google Colab để xử lý đống này. Thêm Thư Viện

import pandas as pd
import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
import matplotlib.pyplot as plt

Загрузить файл BrowserHistory.json và đọc nó.

actress = pd.read_json('BrowserHistory.json')
actress.head()

Lọc dữ liệu.

df = pd.DataFrame(actress['url'],columns=['url'])
df[df.url.str.contains('.*github.*')].to_json(\"rex.json\",orient='split')

Kết quả là một danh sách các url có từ гадость тройник đđ

3. Xử lý trùng lặp và lấy dữ liệu mình cần

Mình mở файл Rex.json Bằng Sublime Text Và Bắt đầu Sửa. Đầu tiên chúng ta sẽ format lại đinh dạng để dễ nhìn hơn Lấy những url github thoả mãn bằng Regex Tiếp là loại bỏ toàn bộ trùng lặp bằng một công cụ online https://codebeautify.org/remove-duplicate-lines.lines. Lúc nÀy dữ liệu đđ đượđượ loại bỏ trùng được nhưng vẫn chưa được nhưư ý. Tôi Muốn Lấy Những Repository Github Thôi Phải Làm Sao. Công Cụ Tôi Nghĩ Ngay Là Excel Giờ chúng ta chỉ giữ lại những cột cần dù để được ết quả. Chúng ta có thể sử dụng có cụ loại bỏ trùng lặp trong Excel để loại bỏ những dữ liệu trùgng Đây là kết quả cuối cùng Như vậy chúng ta đđ lọc được theo ýnh lịch sử những trang mà mình truy cập. Cách làm trên thực sự không phải là hoàn hảo nhưnh do mình vừa Поиск vừa làm nên nó có có có có có có có có có có có có có có có có có có có có có lộn xộn. SAU NAY KHI HọC NHIềU HơN Mình Sẽ Обновление NHữNG Cách Tối ưu Hơn 😄 Để xử lý những cái trên hiệu quả và thông minh hơn chúng ta nên học thêm về:

Ngoài Ra nếu với lượng dữ liệu nhỏ bạn hoàn toàn có ể ù ù Excel để xử lý lọc dữ liệu bằng những hÀm có sẵn.

Оригинал: “https://dev.to/npv2k1/lam-th-nao-d-tim-l-i-nh-ng-trang-web-hay-ma-minh-da-t-ng-truy-c-p-9n3”