使用lxml中的xpath提取文本与标签的属性值
定位
div = html.xpath('//div') # 获取所有div
div = html.xpath('//div[@id="pap"]') # 获取id=pap的div
div = html.xpath('//div[@class="foot"]') # 获取class=foot的div
div = html.xpath('//div[@*]')
div = html.xpath('//div[last()-1]')
div = html.xpath('//div[1]')
div = html.xpath('//div[position()<3]')
div = html.xpath('//div|//h1')
div = html.xpath('//div[net(@*)]')
获取文本text()
text = html.xpath('//div/text()')
取属性
value = html.xpath('//a/@href')