html转义字符-Python3爬虫基础：正则表达式爬取猫眼信息写入txt,csv

前言

正则表达式是对字符串的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则的字符串”，此字符串用来表示对字符串的一种“过滤”逻辑。正在在很多开发语言中都存在，而非python独有。对其知识点进行总结后，会写一个demo。

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】，感兴趣者可以关注小编后私信学习资料（是关注后私信哦）反正闲着也是闲着呢，不如学点东西啦

< /字符转义_html转义字符_html特殊字符的字符转义序列

1.正则表达式

python是自1.5开始引进re模块进行处理正则的。我先把正则的匹配规则总结一下，再总结re模块相应的方法。

1.1匹配规则

html转义字符_< /字符转义_html特殊字符的字符转义序列

对于一个特殊字符在正则表达式中是不能正常识别的，如果接触过其他语言我们就这到有一个叫做转移字符的东西的存在，在特殊字符前加用反斜杠接口。比如n换行\为反斜杠，在这不再累述。下面来介绍一下re这个模块。

1.2.re模块

此模块主要方法如下

re.match()#尝试从字符串的起始位置匹配一个模式(pattern)，如果不是起始位置匹配成功的话，match()就返回None
re.search()#函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None。
re.findall()#遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表。
re.compile()#编译正则表达式模式，返回一个对象的模式。（可以把那些常用的正则表达式编译成正则表达式对象，这样可以提高一点效率。）
re.sub()#使用re替换string中每一个匹配的子串后返回替换后的字符串。
re.subn()#返回替换次数
re.split()#按照能够匹配的子串将string分割后返回列表。

1.2.1.re.match()

方法： re.match(pattern, string, flags=0) # pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

先看一个最简单的用法

import re
content ='Hello 123 4567 wangyanling REDome'
print(len(content))
result = re.match('^Hellosdddsd{4}sw{10}.*Dome

, content) print(result) print(result.group()) print(result.span())

结果：

匹配规则就不在累述，以上需要注意的是

(1) .group() 表示的是返回正则匹配的结果

(2) .span() 表示返回正则匹配的范围

使用：

以上我们已经知道re.matcha()的具体方法，那么接下我来看一下具体使用，对此我们要理解以下几种匹配的感念。

1.泛匹配（.*）：匹配所有字符

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello.*Dome

, content) print(result) print(result.group()) print(result.span())

它的结果是和上面的输出结果完全一样的。

2.目标匹配（（））：将需要的字符匹配出来

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hellosdd(d)sd{4}sw{10}.*Dome

, content) print(result) print(result.group(1)) import re content ='Hello 123 4567 wangyanling REDome' result = re.match('^Hellos(d+)sd{4}sw{10}.*Dome

re.search(pattern, string, flags=0)#pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符 #re.match()和re.search()用法类似唯一的区别在于re.match()从字符串头开始匹配,若头匹配不成功,则返回None

import re content ='Hello 123 4567 wangyanling REDome' result = re.match('(d+)sd{4}sw{10}.*Dome, content) print(result)#从开头开始查找，不能匹配返回None result = re.search('(d+)sd{4}sw{10}.*Dome, content) print(result) print(result.group())

def get_one_page(html): pattern= re.compile('

.*?board-index.*?>(d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime' + '.*?>(.*?)

.*?score.*?integer">(.*?).*?>(.*?).*?

',re.S)#这里就用到了我们上述提到的一些知识点，非贪婪匹配，对象匹配，修饰符 items = re.findall(pattern,html) for item in items: yield { 'rank' :item[0], 'img': item[1], 'title':item[2], 'actor':item[3].strip()[3:] if len(item[3])>3 else '', 'time' :item[4].strip()[5:] if len(item[4])>5 else '', 'score':item[5] + item[6] }

def write_txtfile(content): with open("Maoyan.txt",'a',encoding='utf-8') as f: #要引入json,利用json.dumps()方法将字典序列化,存入中文要把ensure_ascii编码方式关掉 f.write(json.dumps(content,ensure_ascii=False) + "n") f.close()

def write_csvRows(content,fieldnames): '''写入csv文件内容''' with open("Maoyao.csv",'a',encoding='gb18030',newline='') as f: #将字段名传给Dictwriter来初始化一个字典写入对象 writer = csv.DictWriter(f,fieldnames=fieldnames) #调用writeheader方法写入字段名 writer.writerows(content) f.close()

#抓取猫眼电影TOP100榜 from multiprocessing import Pool from requests.exceptions import RequestException import requests import json import time import csv import re def get_one_page(url): '''获取单页源码''' try: headers = { "User-Agent":"Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36" } res = requests.get(url, headers=headers) # 判断响应是否成功,若成功打印响应内容,否则返回None if res.status_code == 200: return res.text return None except RequestException: return None def parse_one_page(html): '''解析单页源码''' pattern = re.compile('

.*?board-index.*?>(d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime' + '.*?>(.*?)

.*?score.*?integer">(.*?).*?>(.*?).*?

',re.S) items = re.findall(pattern,html) #采用遍历的方式提取信息 for item in items: yield { 'rank' :item[0], 'img': item[1], 'title':item[2], 'actor':item[3].strip()[3:] if len(item[3])>3 else '', #判断是否大于3个字符 'time' :item[4].strip()[5:] if len(item[4])>5 else '', 'score':item[5] + item[6] } def write_txtfile(content): with open("Maoyan.txt",'a',encoding='utf-8') as f: #要引入json,利用json.dumps()方法将字典序列化,存入中文要把ensure_ascii编码方式关掉 f.write(json.dumps(content,ensure_ascii=False) + "n") f.close() def write_csvRows(content,fieldnames): '''写入csv文件内容''' with open("Maoyao.csv",'a',encoding='gb18030',newline='') as f: #将字段名传给Dictwriter来初始化一个字典写入对象 writer = csv.DictWriter(f,fieldnames=fieldnames) #调用writeheader方法写入字段名 #writer.writeheader() ###这里写入字段的话会造成在抓取多个时重复. writer.writerows(content) f.close() def download_img(title,url): r=requests.get(url) with open(title+".jpg",'wb') as f: f.write(r.content) def main(offset): fieldnames = ["rank","img", "title", "actor", "time", "score"] url = "http://maoyan.com/board/4?offset={0}".format(offset) html = get_one_page(url) rows = [] for item in parse_one_page(html): #download_img(item['rank']+item['title'],item['img']) write_txtfile(item) rows.append(item) write_csvRows(rows,fieldnames) if __name__ == '__main__': pool = Pool() #map方法会把每个元素当做函数的参数,创建一个个进程,在进程池中运行. pool.map(main,[i*10 for i in range(10)])