Tangseng 基于Go语言的搜索引擎

项目详细内容地址点击这里

项目大体框架&功能

gin作为http框架，grpc作为rpc框架，etcd作为服务发现。
总体服务分成用户模块、收藏夹模块、索引平台、搜索引擎(文字模块)、搜索引擎(图片模块)。
分布式爬虫爬取数据，并发送到kafka集群中，再落库消费。 (虽然爬虫还没写，但不妨碍我画饼...)
搜索引擎模块的文本搜索单独设立使用boltdb存储index，mapreduce加速索引构建并使用roaring bitmap存储索引。
使用trie tree实现词条联想(后面打算加上算法模型辅助词条联想)。
图片搜索使用ResNet50来进行向量化查询 + Milvus or Faiss 向量数据库的查询 (开始做了... DeepLearning也太难了...)。
支持多路召回，go中进行倒排索引召回，python进行向量召回。通过grpc调用连接，进行融合。
支持TF-IDF，BM25等等算法排序。

🧑🏻‍💻 前端地址

all in react, but still coding

react-tangseng

未来规划

架构相关

引入降级熔断
引入jaeger进行全链路追踪(go追踪到python)
引入skywalking or prometheus进行监控
抽离dao的init，用key来获取相关数据库实例
冷热数据分离(参考es的方案,关键在于判断冷热的标准,或许可以写在中间件里面？)
目前来说mysql已经足够存储正排索引，但后续可能直接一步到位到OLAP，starrocks单表亿级数据也能毫秒查询，mysql到这个级别早就分库分表了..

功能相关

快速开始

环境启动！

make env-up

小小数据集就在 source_data/movies_data.csv

Python 启动!

确保电脑已经安装了python,确保python version>=3.9,我的版本是3.10.2
```
python --version
```
安装venv环境
```
python -m venv venv
```
激活 venv python 环境

macos:
```
source venv/bin/activate
```
windows:

等我清完C盘再兼容一下...还没在win上跑过...
安装第三方依赖
```
pip install -r requirements.txt
```

Golang 启动!

golang version >= go 1.16 即可。我的go版本是 1.18.6

下载第三方依赖包
```
go mod tidy
```

目录下执行

make run-xxx(user,favortie ...)
# e.g:
# make run-user
# make run-favorite
# 具体看makefile文件

Name		Name	Last commit message	Last commit date
Latest commit History 296 Commits
.github/workflows		.github/workflows
app		app
config		config
consts		consts
docs		docs
idl		idl
loading		loading
pkg		pkg
repository		repository
source_data		source_data
types		types
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
__init__.py		__init__.py
docker-compose-milvus.yaml		docker-compose-milvus.yaml
docker-compose-with-kafka.yaml		docker-compose-with-kafka.yaml
docker-compose.yaml		docker-compose.yaml
go.mod		go.mod
go.sum		go.sum
main.py		main.py
pyproject.toml		pyproject.toml
python-start.sh		python-start.sh
requirements.txt		requirements.txt
vector_index.py		vector_index.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tangseng 基于Go语言的搜索引擎

项目大体框架&功能

🧑🏻‍💻 前端地址

未来规划

架构相关

功能相关

快速开始

Python 启动!

Golang 启动!

About

Releases

Packages

Languages

License

youminghang/tangseng

Folders and files

Latest commit

History

Repository files navigation

Tangseng 基于Go语言的搜索引擎

项目大体框架&功能

🧑🏻‍💻 前端地址

未来规划

架构相关

功能相关

快速开始

Python 启动!

Golang 启动!

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages