LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。
该工具具有以下特点与优势:
- 效果好:通过深度学习模型联合学习分词、词性标注、专名识别任务,词语重要性,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果业内领先。
- 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率业内领先。
- 可定制:实现简单可控的干预机制,精准匹配用户词典对模型进行干预。词典支持长片段形式,使得干预更为精准。
- 调用便捷:支持一键安装,同时提供了Python、Java和C++调用接口与调用示例,实现快速调用和集成。
- 支持移动端: 定制超轻量级模型,体积仅为2M,主流千元手机单线程性能达200QPS,满足大多数移动端应用的需求,同等体积量级效果业内领先。
安装配置:
1.安装Python及PIP
2.通过PIP安装LAC
pip3 install lac
使用示例代码:
from LAC import LAC
lac = LAC(mode='lac')
text = '今天是个好日子,我们去爬山!'
words, tags = lac.run(text)
print(words)
print(tags)
输出结果:
['今天', '是', '个', '好日子', ',', '我们', '去', '爬山', '!']
['TIME', 'v', 'q', 'n', 'w', 'r', 'v', 'v', 'w']
其中,words为分词结果,tags为词性标注结果。t表示时间词,v表示动词,q表示量词,n表示名词,wp表示标点符号,r表示代词。
更多用法请参考 https://github.com/baidu/lac