Python使用jieba分词并统计高频词
对文本分词并统计高频词,即关键词,是做网络爬虫的基本需求。
使用Python可以实现这一点,这里我们使用`jieba`进行分词,并使用`collections`进行词频统计。
直接上代码:
Home of Little Jelly
对文本分词并统计高频词,即关键词,是做网络爬虫的基本需求。
使用Python可以实现这一点,这里我们使用`jieba`进行分词,并使用`collections`进行词频统计。
直接上代码:
在某些环境下,git默认不会保存输入的用户名、密码,每次push/pull代码时,都要重新输入,比较麻烦。
有两种方式可以避免这种问题。
服务或框架间进行通信时,如果能走同步的方式最好,实时返回数据,如果不能,比如一些比较耗时的任务,就需要用异步的方式了。
异步的通信,一般有回调和轮询两种。
ThinkPad小红点指点杆有一个学习适应的过程,介绍下本人在使用中的要领。
首要先设置好:
VS Code中可以在选中多行代码行进行统一的缩进和格式化,不用一行行的费力操作了。
### 缩进
近期在学习使用Playwright,总结了几点使用技巧。
1. 使用`page.on(‘response’)`获取接口返回结果
宝塔面板虽然可以很方便地安装PHP各个版本,但参数都是预先定义好的,自己不能改。
如果要自定义参数编译安装PHP,要费一点周折。
比如我最近遇到一个问题,编译安装企业微信的扩展跟PHP7.4自带的扩展intl冲突,只能先把原来的PHP版本卸载掉,再重新编译,直接在宝塔面板上操作是不行的,没有定义参数的地方。
Playwright有时要隐藏webdriver特征,以绕过服务器端的反爬机制。
仅需要在`page.goto()`之前,加上一句初始化脚本。
使用Electron在windows上开发了一个程序,但是没有mac,可以在windows上打包出mac版上的app吗?
是的,你可以在Windows环境中使用Electron来打包macOS版本的应用程序,不过这个过程可能会稍微复杂一些。
PhpSpreadsheet在导入导出Excel时是很好用的,能省不少事,但也有一些坑。
今天就遇到一个,导入的模板,在修改过程中设置了单元格的高度、字体的颜色大小等样式,导入时发现写进去的字段是空的,也就是没有获取到值。