[python] 解決爬蟲會遇到的[email protected]問題

在爬蟲時遇到電子郵件的地方有可能會顯示被加密的狀態
例如
<span class="__cf_email__" data-cfemail="f2f0ded3dcd1dad7c6c6f2">[email&#160;protected]</span>
 真正的電子郵件被加密變成 data-cfemail 屬性的數值,這長長一串都是16進位的表示,且分為兩個部分
  1. 密鑰:前兩碼為密鑰的16進位表示法。
  2. 信箱本體:除了密鑰,都為信箱本體,每兩個字元分為一組。
接下來只要解密就可以了,這採取最簡單的異或(xor)加密方法,密鑰與信箱本體一一的去做xor運算,所得結果則為加密後的結果。若要解密,對加密後的數值多xor一次,就能解密回來。

Reference:

留言

這個網誌中的熱門文章

[Hyper-V] 讓 Windows 可以吃到超過 16TB 的硬碟!