text2vec 与矢量索引引擎

1.milvus Milvus 是一款开源的、针对海量特征向量的相似性搜索引擎。
https://github.com/milvus-io/milvus
文档 https://milvus.io/cn/

各种各样的语料库,非常全,而且可以下载
冷眼-风雨飘摇
专注于python、自然语言处理
https://cold-eye.github.io/post/nlp-corpus/
2021-09-01 13:39:39 星期三

  1. text2vec引擎
    推理速度可以满足实时性要求。https://github.com/NVIDIA/FasterTransformer

ELECTRA模型
https://www.leiphone.com/category/academic/i2yH9anJWkh8rd6r.html
中文预训练模型
https://www.leiphone.com/category/academic/i2yH9anJWkh8rd6r.html
https://github.com/ymcui/Chinese-ELECTRA
科大讯飞某个主要技术负责人的github https://github.com/ymcui
中文训练数据集扩大9倍后的效果
https://www.jiqizhixin.com/articles/2020-10-26-11

苏剑林的反省:吐槽贴:用ELECTRA、ALBERT之前,你真的了解它们吗?
https://bbs.huaweicloud.com/blogs/226675
苏剑林的博客
https://kexue.fm/

对bert 进行蒸馏,tinyBERT,推理速度提高9倍
https://zhuanlan.zhihu.com/p/94359189
这是很棒的模型,一来可以直接训练,二来,可以用来蒸馏后使用

最后,github 上找出了一个质量很不错的答案,来解决计算文本相似度的问题
https://github.com/shibing624/text2vec
具体实现包括wordVector 平均值法,以及small Bert 模型,重要的是这个是开箱可用的
https://www.sbert.net/index.html

2021-09-02 15:06:43 星期四

fasterTransformer
https://baike.baidu.com/item/Faster%20Transformer/23737285?fr=aladdin

最新的媲美Bert的模型
PRADO,pQRNN
https://zhuanlan.zhihu.com/p/257934777
:印象是虽然小,但是没有放出的代码实现。也没有中文版本的踩坑记录

2021-09-01

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注