做一个文档转换器应用,虽然用不了太多代码,但是要涉及到进程、线程、自定义Qt信号等太过抽象的东西。在做这个应用前,我们还是先来点简单的吧。之前的教程好像有些无聊,这节课,我们来学着做点有意思的东西。
有意思的东西,要有有意思的内容。如果自己没有内容,就到互联网上致敬一些吧。
说实话,查看电脑的IP,也挺无聊的,但是够简单,所以就从这里开始吧。IP地址在操作系统里就可以直接查看。但是除了IP地址,我们也想通过IP获取地理地址和网络运营商情况。IP地址和地理地址并没有固定的关系,所以我们需要借助网络上的数据库,或者说借助第三方的服务来查询。这里,我们选用IP.CN提供的IP地址查询服务。
from PyQt5.Qt import (
QApplication,
QWidget,
QLabel,
QPushButton,
QVBoxLayout,
QSizePolicy
)
def fetch_ip():
from urllib.request import urlopen, Request
return urlopen(Request("https://ip.cn", headers={"User-Agent": "curl/7"})) \
.read().decode().strip().replace("来自", "\n来自")
app = QApplication([])
lbl = QLabel()
lbl.setStyleSheet("background: teal; color: lime; font-size: 72px;"
"qproperty-alignment: AlignCenter;"
"qproperty-text: 'Ready.'")
lbl.setSizePolicy(QSizePolicy(QSizePolicy.Ignored, QSizePolicy.Ignored))
btn = QPushButton()
btn.setStyleSheet("* { background: seagreen; color: aqua; font-size: 72px; border: none }"
"* { qproperty-text: 获取IP地址 }"
"*:hover { background: darkgreen }"
"*:pressed { background: olive }")
btn.setSizePolicy(lbl.sizePolicy())
btn.clicked.connect(lambda: lbl.setText(fetch_ip()))
box = QVBoxLayout()
box.addWidget(lbl)
box.addWidget(btn)
box.setStretch(0, 2)
box.setStretch(1, 1)
box.setSpacing(0)
box.setContentsMargins(0, 0, 0, 0)
wnd = QWidget()
wnd.setWindowTitle("IP地址察看器")
wnd.resize(777, 777 * 0.618)
wnd.setLayout(box)
wnd.show()
app.exec()
运行以上程序,点击按钮,大约卡顿半秒后,文本标签处就会显示我们电脑的IP
地址、地理
地址和ISP
信息。
这个程序涉及到了不少新的知识点,我来依次解释一下:
def 函数名(...参数):
这种语法是用来定义函数的。Lambda
表达式定义的是匿名函数,def
定义的是有名字的函数。函数接受0个或多个输入,处理后返回0个或多个输出。Python
为了简洁,没有提供特殊的符号来给函数定界。Python
用Tab
(制表符)或空格来给函数定界。Tab
在不同平台下宽度可能不一样,所以程序代码中的空白一般用空格。理论上任意个空格都可以,但使用4个空格已经是事实上的标准了。Python
规定函数体不能为空。所以,表示什么都不做,要用语句pass
return
关键字结束执行,并将return
后边跟着的数据(如果有的话)返回。没有返回语句的函数,会执行到函数尾部,返回None
import
语句,除了放在代码头部外,也可以用在函数体里面。但是出了这个函数,import
进来的东西就访问不到了urllib
模块提供了这个功能。http
协议,也可能使用https
协议。所以,在代码中,我们要明确指出urlopen
函数可以将网页下载回来。不同的网页,下载回来的格式也不一样。可能是普通的HTML网页(最常见的网页类型),可能是纯文本文档(在Windows下俗称记事本文档),也可能是图片、视频、压缩包等电脑上可以存储的任意文件格式。urlopen
函数下载网页消耗的时间是不确定的。Python
代码要一行一行执行,下载网页时,程序要等待下载完成才能执行其他代码(包括响应用户的点击事件)。所以,下载时会导致软件假死,点击按钮没反应。urllib
是Python官方的可以做爬虫的模块。所以,直接使用urllib
,会被ip.cn
识别为爬虫而拒绝服务(返回HTTP状态码403)。所以,我们需要将我们的HTTP请求伪装成浏览器或者其他用户代理(User-Agent, 一般用户不会直接使用HTTP协议访问网页,而要借助浏览器代为访问,浏览器代理用户访问网页,这时浏览器的角色就是用户代理)。不过,我们这次不伪装成浏览器,而要伪装成cURL
(可以当作一个命令行下的网页浏览器)。因为IP.CN
对浏览器返回的是一个HTML
网页,对cURL
返回的是一个包含了IP
信息的字符串。为了省却解析HTML
网页获取我们关心的IP
信息,我们决定伪装成cURL
,一步到位获取。cURL
,我们需要修改HTTP请求的头部Header
。HTTP
规范定义了HTTP头部的User-Agent
字段表示用户代理。我们修改这个字段即可。经过我的测试,IP.CN
对cURL
的识别策略是User-Agent
字段以curl
开头,后面跟斜杠和curl
版本号。我们用curl/7
就行。urllib.request.urlopen
返回的数据类型是urllib.response.Response
对象,这是urllib
对HTTP响应的封装。Response.read()
方法可以读取响应内容。由于HTTP响应可能是张图片,所以不能用字符串来表示。read
方法读到的是字节码,字节码可以表示任何数据类型,也可以表示任何文件类型。从字节码转换到字符串,需要解码,即调用decode()
方法。这张,我们便得到了一个表示IP
地址信息的字符串,格式类似于当前 IP: 115.171.212.227 来自: 北京市 电信\n
。strip()
方法可以去除首位的空白字符,比如换行符号。replace()
方法,可以替换字符串中的指定子串为其他文本。我们用replace()
方法来给字符串中间添加一个换行符。qproperty-text
表示文本,qproperty-alignment
表示对齐方式。*
是通配符,表示任意控件。QSS
中,:hover
表示鼠标悬浮状态,:pressed
表示鼠标按下状态。QBoxLayout.addWidget()
方法,我们还可以通过QBoxLayout.setStretch(索引,比重)
来调节子控件在布局中的拉伸因子。注意,IP
地址是商品,是可以用来买卖的,IP
地址的归属地和归属运营商(ISP)也是动态变化的,不一定准确。
我们刚做的IP地址查看器,在查询IP时会假死一会儿。这个问题比较复杂,我们留到后面处理。现在,我们该做一个看段子的软件。我们的目标是,点击按钮可以随机刷新出几条段子,点击段子名称可以阅读段子的内容。
当然,我们不是在做AI
(人工智能),不过就算是做AI
,要想编个能看的段子,一般的电脑CPU怕是一时半会算不出来。我们希望找一个免费的可以提供随机段子的接口。这里说的接口是HTTP
接口,接口类似于运行在其他电脑上的一个远程的函数,我们可以调用这个函数(这个接口)获取我们需要的东西。接口的格式一般比较固定,里面的数据一般不会经过特殊处理,可以直接读取解析出来。
不过,免费的接口可不好找。我搜了半天也没有搜到。看来我们得自立更生,找一个可以提供随机段子的网站,将网页里的随机段子手动扒出来了。这种程序学名叫做爬虫。现在教爬虫有点过早,但是为了我们的程序有内容可看,只能先硬着头皮上了。
我发现一个网站叫段子网(此处不是在做广告,数数本文的留言人数,就知道我没骗你啦),首页每次刷新,都会在侧边栏生成5个随机的段子。不过,这5个段子只有标题。看来,我们的程序又得多几行代码了。
from PyQt5.Qt import (
QApplication,
QWidget,
QLabel,
QPushButton,
QVBoxLayout,
QSizePolicy,
QHBoxLayout
)
from urllib.request import urlopen
from parsel import Selector
import textwrap
app = QApplication([])
lbl = QLabel("Ready.")
lbl.setSizePolicy(QSizePolicy.Ignored, QSizePolicy.Ignored)
lbl.setWordWrap(True)
lbl.setStyleSheet("font-size: 36px")
btn = QPushButton("刷新段子")
lft = QVBoxLayout()
lft.setSpacing(1)
for i in range(1, 6):
wgt = QPushButton(f"段子{i}")
wgt.setStyleSheet("* { font-size: 36px; background: steelblue }"
"*:hover { background: cadetblue }")
wgt.setSizePolicy(QSizePolicy.Ignored, QSizePolicy.Ignored)
lft.addWidget(wgt)
top = QHBoxLayout()
top.addLayout(lft)
top.addWidget(lbl)
box = QVBoxLayout()
box.addLayout(top)
box.addWidget(btn)
box.setSpacing(0)
box.setContentsMargins(0, 0, 0, 0)
wnd = QWidget()
wnd.setWindowTitle("五个段子")
wnd.resize(999, 999 * 0.618)
wnd.setLayout(box)
wnd.show()
app.setStyleSheet(
"* { font-size: 72px; color: lime; background: darkturquoise }"
"QLabel { background: teal; qproperty-alignment: AlignCenter }"
"QPushButton { background: darkgreen; border: none }"
"QPushButton:hover { background: seagreen }"
"QPushButton:pressed { background: green }"
)
def fetch_joke(url):
htm = urlopen(url).read().decode()
title = Selector(htm).xpath("//article//h1/text()").get()
content = "\n".join(Selector(htm).xpath("//article/section/p/text()").getall())
return f"{title}\n{content}"
def refresh_jokes():
htm = urlopen("https://duanziwang.com").read().decode()
jks = [x.attrib for x in Selector(htm).xpath("//div/li/a")]
for idx, jok in enumerate(jks):
btn: QPushButton = lft.itemAt(idx).widget()
btn.setText(textwrap.fill(jok["title"][:24], 12))
btn.setProperty("url", jok["href"])
btn.clicked.connect(lambda: lbl.setText(fetch_joke(app.sender().property("url"))))
btn.clicked.connect(refresh_jokes)
app.exec()
执行以上代码,可以看到我们的段子软件的功能已经完成。这个程序涉及到了不少新的知识点,我大概解释一下:
QApplication.setStyleSheet
可以设置应用的全局样式表QLabel.setWordWrap
可以启用或禁用自动换行(默认关闭状态)for x in y
这种语法是用来遍历容器类型数据(比如列表)的。y
是容器,x
是元素,在每次迭代中会更新。range(a, b)
函数可以用来生成整数范围[a, b-1]
。范围不是列表,不存储元素,只是描述了元素的生成规则。for
也可以用来遍历迭代器。range
函数返回的范围属于Python中的迭代器。global
关键字Qt
不会将点击事件的信号源(按钮对象)传递给槽函数,但是,Qt
提供了QObject.sender()
实例方法来获取最新的信号源。QObject.sender()
是个实例方法,意思是这个方法只能在QObject
类的实例对象上调用。QObject
是Qt
系统中所有类型的根类。Qt
中的所有类都继承自QObject
。所以,每个Qt
中的对象都是QObject
类的对象QObject.sender()
方法可以在任意Qt
对象上调用。我们可以直接用app.sender()
来获得最新的信号源,即用户最新点击的按钮。QObject.setProperty
可以在Qt
对象上保存数据。比如,我们可以将段子的地址保存在关联的按钮中。textwrap.fill
方法可以以指定的段长切割字符串,每个切点放一个换行符<html><head></head><body><a href="www.github.io">CLICK</a></body></html>
。手动解析这种文档,一般要用到正则表达式
,非常麻烦。所以,我们一般用现成的解析器来解析HTML文档。在这里,我们使用parsel
(pip install parsel
)这个模块来解析HTML。Selector(HTML代码)
构造函数用来生成HTML解析器,Selector.xpath()
方法用指定的路径(XPath)来解析HTML,返回的对象还是Selector
。Selector.get
方法获取匹配到的第一个元素,Selector.getall
方法获取匹配到的全部元素。//div/li/a
表示HTML
文档中任意位置的div
标签下的直接子li
标签下的直接子a
标签。在我们下载的网页中,这个XPath
语句正好匹配到我们需要的5个段子的超链接。要获取标签的文本,需要使用text()
。[function(x) for x in y]
这种语法叫生成器,可以用来将一个列表中的元素经过处理一一映射到另一个列表。我们也可以利用这种语法,将需要写两行的for x in y: function(x)
语法压缩到一行。"\n".join(字符串列表)
这种语法可以用特定的字符连接多个字符串。最后附截图一张: