2019-03-24

Seleniumメモ

Web

参考

seleniumの2つの待機方法 - ストックドッグ
 Selenium API(逆引き)
4. 要素を見つける — Selenium Python Bindings 2 ドキュメント
 Selenium webdriverよく使う操作メソッドまとめ - Qiita
4. Locating Elements — Selenium Python Bindings 2 documentation

要素特定のポイント

大きく2つ方法があり。

①パブリックメソッド
find_element(s)_by_XXXXX(〜)
②プライベートメソッド
find_element(s)(By.XXXXX, 〜)

参考引用

上記のパブリックメソッドとは別に、ページオブジェクト内のロケータで便利なプライベートメソッドが2つあります。これらは、find_elementおよびfind_elementsの2つのプライベートメソッドです。

xpathは重要。xpahtはXMLのデータ特定言語。ID等で対象を特定できない場合に便利。

参考引用

<html>
 <body>
  <form id="loginForm">
   <input name="username" type="text" />
   <input name="password" type="password" />
   <input name="continue" type="submit" value="Login" />
   <input name="continue" type="button" value="Clear" />
  </form>
</body>
<html>

上記のid="loginForm"を指定したい時は以下記述が可能。"/"はツリー指定。"//"はツリー省略記述。

login_form = driver.find_element_by_xpath("/html/body/form[1]")
login_form = driver.find_element_by_xpath("//form[1]")
login_form = driver.find_element_by_xpath("//form[@id='loginForm']")

待機も重要

5. 待機 — Selenium Python Bindings 2 ドキュメント

サンプルコード

JVN iPediaから2018年度のレッドハットのCVSS V3で深刻度が9以上の脆弱性出力

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.support.ui import Select
import time


def check_by_xpath(wd, xpath):
    em = wd.find_element_by_xpath(xpath)
    em.click()


def select_by_text(wd, select_tag, text):
    # nameで指定
    em = wd.find_element_by_name(select_tag)
    # selectタグの値をテキストで指定
    em = Select(em)
    # optionsでselect選択肢を取得可能
    #for i in em.options:
    #    print(i.text)
    em.select_by_visible_text(text)


def click_by_link_text(wd, text):
    # リンクテキストで指定
    em = wd.find_element_by_link_text(text)
    em.click()


def click_by_name(wd, name):
    # リンクテキストで指定
    em = wd.find_element_by_name(name)
    em.click()


def scraping():
    options = webdriver.ChromeOptions()
#    options.add_argument('--headless')
    wd = webdriver.Chrome(options=options)
    wd.implicitly_wait(20)
    wd.get('https://jvndb.jvn.jp/')
    click_by_link_text(wd, '詳細検索')
    select_by_text(wd, 'vendor', 'レッドハット')
    select_by_text(wd, 'product', 'Red Hat Enterprise Linux Server')
    select_by_text(wd, 'datePublicFromYear', '2018')
    select_by_text(wd, 'datePublicFromMonth', '04')
    select_by_text(wd, 'datePublicToYear', '2019')
    select_by_text(wd, 'datePublicToMonth', '03')
    check_by_xpath(wd, '//input[@class=' + '"cvss_v3" and @value="01"]')
    click_by_name(wd, 'search')
    time.sleep(10)
    wd.quit()


if __name__ == '__main__':
    scraping()

2019-03-11

Metabase使い方メモ

メモ

SQL書いた場合、ドリルダウンできない？

サンプルグラフにSQLで条件追加したらドリルダウン不可

円グラフはドリグダウンできる時と出来ない時の違いがわからない。

サンプルは円グラフでドリルダウン可能
自分で作った場合はNG(SQL未使用)

英語UIでないと列等の詳細設定が動かない？

ダッシュボード公開可能

metabase.com
管理者画面で有効化→ユーザー画面のダッシュボード設定で"Sharing and Embedded"でリンク入手

2019-02-18

Pydnsblを使う

Pyhotn

複数のDNSBLに問い合わせしてくれる。
　

ソース

from pydnsbl import DNSBLChecker

chk = DNSBLChecker()
res = chk.check_ip('1.1.1.1')

print("Result")
print(res.blacklisted)
print("")
print("Providers")
print(res.detected_by)

結果

Result
True

Providers
{'dyna.spamrats.com': ['unknown']}

　
タイムアウト DNSBLが多く遅い。解消は以下

ソース

from pydnsbl import DNSBLChecker, providers

BASE_PROVIDERS = [
    'b.barracudacentral.org',
    'zen.spamhaus.org',
]
BASE_PROVIDERS = [providers.Provider(host) for host in BASE_PROVIDERS]
print(BASE_PROVIDERS)

chk = DNSBLChecker(providers = BASE_PROVIDERS)
res = chk.check_ip('8.8.8.8')

print("Result")
print(res.blacklisted)
print("")
print("Providers")
print(res.detected_by)

結果

[<Provider: b.barracudacentral.org>, <Provider: zen.spamhaus.org>]
Result
False

Providers
{}

2019-02-18

Pythonのクラスについて

Pyhotn

はじめに

Pythonの仕様なので、こういうものだと覚える！
　

参照

Amazon CAPTCHA
　

クラスの定義は以下の形

class クラス名:
    def メソッド名(self, ...):
        ...
    def メソッド名(self, ...):
        ...

インスタンス生成

ソース

class myclass:
    def __init__(self):
        pass

a = myclass()
print(type(a))

実行結果

<class '__main__.myclass'>

クラスオブジェクト

クラスもオブジェクト
クラスを定義するとクラスオブジェクトが生成される
クラスオブジェクトの代入可能
ソース

class myclass:
    def __init__(self):
        pass

a = myclass
b = a()
print(type(b))

実行結果

<class '__main__.myclass'>

属性指定

class myclass:
    def __init__(self):
        self.hoge = "hoge"

a = myclass()
print(a.hoge)

実行結果

hoge

属性削除

ソース

class myclass:
    def __init__(self):
        self.hoge = "hoge"

a = myclass()
print(a.hoge)
del a.hoge
print(a.hoge)

実行結果

Traceback (most recent call last):
  File "/Users/pike/PycharmProjects/Study/c.py", line 8, in <module>
    print(a.hoge)
AttributeError: 'myclass' object has no attribute 'hoge'
hoge

メソッド

クラスに定義された関数
selfを引数として持つ。selfは生成されたインスタンス自身
ソース

class A:
    def m1(self):
        print("A.m1")
        self.m2("m1 messeage")
    def m2(self, mes):
        print("A.m2")
        print(mes)

a = A()
a.m1()

実行結果

A.m1
A.m2
m1 messeage

コンストラクタ

インスタンス生成時に呼び出されるメソッド。名前は"__init__"にする
ソース

class A:
    def __init__(self):
        print("A.m1")

a = A()

実行結果

A.m1

デストラクタ

インスタンス削除時に呼び出されるメソッド。名前は"__del__"にする
ソース

class A:
    def __del__(self):
        print("del A")

a = A()
del a

実行結果

del A

継承

既存のクラスの派生クラスの定義
定義時に既存クラスを指定。これを基底クラスと呼ぶ
基底クラス未指定の場合、objectクラスを継承
super()で基底クラスのメソッド呼び出しが可能
ソース

class A:
    def __init__(self, arg1):
        self.atr1 = arg1
    def m1(self):
        print("m1")

class B(A):
    def __init__(self, arg1, arg2):
        super().__init__(arg1)
        self.atr2 = arg2
    def m2(self):
        print("m2")

i = B("hoge", "fuga")
print(i.atr1)
print(i.atr2)
i.m1()
i.m2()

実行結果

hoge
fuga
m1
m2

メソッドのオーバーライド

継承クラス定義と同名のメソッドを定義するとオーバーライドする
ソース

class K():
    def m(self):
        print("m by K")
    def m2(self):
        print("m2 by K")


class A(K):
    def m(self):
        print("m by A")

a = A()
a.m()
a.m2()

実行結果

m by A
m2 by K

多重継承

複数クラスの継承
ソース

class A:
    def m1(self):
        print("m1")

class B:
    def m2(self):
        print("m2")

class C(A, B):
    def m3(self):
        print("m3")


a = C()
a.m1()
a.m2()
a.m3()

実行結果

m1
m2
m3

　
メソッドの検索順が確定できない場合エラー
ソース

class A:
    def m1(self):
        print("m1")

class B():
    def m2(self):
        print("m2")

class C(A, B):
    def m3(self):
        print("m3")

class D(B, A):
    def m4(self):
        print("m4")

class E(C, D):
    def m5(self):
        print("m5")

実行結果

Traceback (most recent call last):
  File "/Users/pike/PycharmProjects/Study/a.py", line 17, in <module>
    class E(C, D):
TypeError: Cannot create a consistent method resolution
order (MRO) for bases A, B

※CはA→B、DはB→A順で検索。EはC→D順で検索するが、CとDが矛盾する為、エラー(内部実装の話。こういうものだと覚える！)
　
メソッドの検索順はmroメソッドで取得可能
ソース

class A:
    def m1(self):
        print("m1")

class B():
    def m2(self):
        print("m2")

class C(A, B):
    def m3(self):
        print("m3")

a = C()
print(C.mro())

実行結果

[<class '__main__.C'>, <class '__main__.A'>, <class '__main__.B'>, <class 'object'>]

　
Cのインスタンスのmroメソッドを参照すると未定義エラーとなる。
ソース

class A:
    def m1(self):
        print("m1")

class B():
    def m2(self):
        print("m2")

class C(A, B):
    def m3(self):
        print("m3")

a = C()
print(a.mro())

実行結果

Traceback (most recent call last):
  File "/Users/pike/PycharmProjects/Study/a.py", line 14, in <module>
    print(a.mro())
AttributeError: 'C' object has no attribute 'mro'

インスタンスアロケータ

__new__メソッドのこと。__init__と似てるが、こりゃ難しい。以下URLも参考。
__new__と__init__とメタクラスと - Qiita
インスタンスアロケータ - Python学習講座
　
__new__の第一引数はクラスオブジェクト(cls)、__new__はインスタンス(self)
ソース

class A():
    def __new__(cls):
        print("A __new__")
        print(cls)

class B():
    def __init__(self):
        print("B __init__")
        print(self)

a = A()
aa = A
print(aa)

print("")
b = B()
print(b)

実行結果

A __new__
<class '__main__.A'>
<class '__main__.A'>

B __init__
<__main__.B object at 0x107abcc18>
<__main__.B object at 0x107abcc18>

　
__new__も__init__もインスタンス生成時に呼び出される
__new__の方が先に呼び出される。__new__の戻り値がsuper().__new__(cls)の場合のみ、__init__が実行される
ソース

class A():
    def __new__(cls):
        print("A __new__")
        return super().__new__(cls)
    def __init__(self):
        print("A __init__")

class B():
    def __new__(cls):
        print("B __new__")
    def __init__(self):
        print("B __init__")

a = A()
b = B()

実行結果

A __new__
A __init__
B __new__

　
return super().__new__(cls)とは？→クラスAのインスタンスである！
参考書籍にも以下記載あり
__new__はインスタンス生成する為に呼び出される。戻り値がクラスのインスタンスなら、そのインスタンスの__init__メソッドが実行される
やっと理解できた！
ソース

class A():
    print("A super().__new__(cls)")
    def __new__(cls):
        print(super().__new__(cls))
        return super().__new__(cls)
    def __init__(self):
        self.hoge = "A"

a = A()
print(a)

実行結果

A super().__new__(cls)
<__main__.A object at 0x107595cc0>
<__main__.A object at 0x107595cc0>

　
インスタンスアロケータの用途は?→参考書籍やURLを読み、以下と理解した
イミュータブル(変更不可)なクラス(int等)を継承しても、イミュータブルだからメソッドや属性を__init__ではオーバーライドできない(エラーになる)。ただ__new__ならできる。
ソース

class A(int):
    def __init__(self):
        self.hoge = "A"

a = A()
print("test")

実行結果

test

　
しかし以下コードを実行したが。。。エラーにならない。。。理解を誤ってるのだろう
ソース

class A(int):
    def __init__(self):
        self.real = 2

a = A()

実行結果

　
こういうことかも
__init__はself(インスタンス)を引数にする=既にインスタンス生成後の処理→なのでインスタンス生成前の処理をオーバーライドできない。→__new__ならできる!
intを継承したクラスでインスタンス生を成し、その値が常に2になるクラスを実装する場合
__init__ではできない。ダメ元で以下コードで試す
ソース

"""
# intの__init__メソッドのソースコードの内容。passしてるだけ。

def __init__(self, x, base=10):
    pass
"""

class A(int):
    def __init__(self, x, base=10):
        x = "2"
        pass

a = A("1")
print(a)

実行結果

　
__new__でインスタンス生成時の引数を2に変更！
ソース

class A(int):
    def __new__(cls, s):
        s = "2"
        return super().__new__(cls, s)

a = A("1")
print(a)

実行結果

2019-02-10

HTMLメモ

Web

divとclassについて

HTMLのdiv classとは？５分でわかる事例付き解説｜Udemy メディア
　
divはタグをグループ化するもの。
classは、その名前。
idもdivにつける名前だが、違いは以下。
classは1ページ内で同一名を複数記述可能、idは一箇所のみ。

2019-02-10

IT用語

ハイプ・サイクル

ガートナージャパン | ハイプ・サイクル 2018年

テクノロジとアプリケーションの成熟度と採用状況、実際のビジネスにおける課題を解消する潜在的な能力、そしてテクノロジやアプリケーションが生み出す新たな機会などを提示するガートナーの代表的なリサーチの1つ

2019-02-10

Webスクレイピング勉強

Web

参考

Pythonでかんたんスクレイピング（JavaScript・Proxy・Cookie対応版） - Qiita

Requestモジュール
Developer Interface — Requests 2.21.0 documentation

BeautifulSoup
Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation
パーサではない。パーサー指定しパート毎に取り出すためのライブラリ。
　

メモ

BeautifulSoup

f:id:pikesaku:20190210230849p:plain

上記の"ハイプ・サイクルは〜"部分を取り出す場合、以下2つの方法あり。

soup.find("div", attrs={"class": "leftarea"}).text)
soup.find_all(attrs={"class": "leftarea"})[0].text

findでタグ指定し、属性で絞り込み。
find_allでタグ指定せず、属性で絞り込み。レスポンスはリスト。

selenium、chromedriver-binary

Python + Selenium で Chrome の自動操作を一通り - Qiita
SeleniumでChromeDriverを使ってスクレイピング | fukuの犬小屋
 Selenium使ってみた(Python) - コンピュータサイエンス系勉強ノート
 PythonでSeleniumを使ってスクレイピング (基礎) - Qiita
【Python】seleniumで取得した要素をクリックできないときの対処法 - 備忘録
 【Python】実践 Selenium 【前編】 - Qiita

　
以下URLからchromedriverをダウンロードし、/usr/loca/binに設置する必要あり。
Downloads - ChromeDriver - WebDriver for Chrome
　

サンプルコード

Javascript実行する必要があるやつ
けっこうはまった。。。先人に感謝！

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup

def scraping(url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    driver = webdriver.Chrome(options=options)
    driver.get(url)
    driver.execute_script("return(bpsso.liMov(0))")
    a = driver.page_source.encode('utf-8')
    print(a)
    soup = BeautifulSoup(a, "lxml")
    print(soup.text)
    driver.quit()


if __name__ == '__main__':
    url = 'https://tech.nikkeibp.co.jp/top/it/'
    scraping(url)

補足

【スクレイピングと法律】スクレイピングって法律的に何がOKで何がOUTなのかを弁護士が解説。 | IT法務や仮想通貨、ICO、AIの法律に詳しい弁護士｜中野秀俊
 利用規約でスクレイピングNGでない & データを丸々譲渡しなければ法的にOK