[python] 解決爬蟲會遇到的[email protected]問題
在爬蟲時遇到電子郵件的地方有可能會顯示被加密的狀態
例如
例如
<span class="__cf_email__" data-cfemail="f2f0ded3dcd1dad7c6c6f2">[email protected]</span>
真正的電子郵件被加密變成 data-cfemail 屬性的數值,這長長一串都是16進位的表示,且分為兩個部分
- 密鑰:前兩碼為密鑰的16進位表示法。
- 信箱本體:除了密鑰,都為信箱本體,每兩個字元分為一組。
接下來只要解密就可以了,這採取最簡單的異或(xor)加密方法,密鑰與信箱本體一一的去做xor運算,所得結果則為加密後的結果。若要解密,對加密後的數值多xor一次,就能解密回來。
Reference:
留言
張貼留言