网站建设

网站建设

网站推广

网站推广

大数据支持

大数据支持

数据报表

数据报表

专业服务

专业服务

大数据组件

/images/bigdata/zm1.png

TIDB方案实时统计和可视化分析

基于kafka+Flink ,数据迁移到TIDB 并计算,提供大数据平台,基于TiSpark

源码修改并获得支持Spark 3.x 的Spark 上下文组件,修改Hue 源码整合PyTiSpark 增加interpreter

支持基于web 节目调试代码调用TiDB 和Hive。基于Spark on Yarn + Jenkins 做离线统计任务。

/images/bigdata/imgsearch.png

海量图片处理,以图搜图

基于OpenCV 和海量图片目标检测和ResNet50 模型训练和目标特征向量提取并存储,测试基于ElasticSearch

和Clickhouse 做余弦距离相似度匹配检索,测试编译并开发faiss、sptag 和Milvus 框架的向量匹配性能,

基于Cuda 开发kd-tree 测试向量搜索性能。

/images/bigdata/Figure-1-5.png

餐饮外卖大数据挖掘

基于Spark 做数据处理、提取MongoDB 业务库到Hive 后,提供基本数据报表结果表。基于Hive+Presto

挖掘数据特征、通过Scala + Spark Core 做统计算法处理,对数据做预处理和规划标注内容,作为算法训

练集使用,使用Azkaban 做定时任务调度。

基于特征工程,提取画像标签用Neo4j 做数据画像存储,基于优惠活动内容信息、餐品信息、门店和品

牌信息做NLP,文本数据预处理做信息降维,计算因子权重,使用Spark ML 和 Scikit-Learn 机器学习,

基于线性回归和贝叶斯原理基础,包含使用随机森林、XGBoost、GBDT、AI 预测算法和推荐算法,包含

售罄预测、用户流量预测、销售预测、套餐搭配推荐、口味推荐。

/images/bigdata/got-graph-full.png

分布式爬虫和舆情分析

使用Kafka+Storm+Redis+HBase+Hive+ElasticSearch 开发分布式爬虫、主要数据计算阶段使用 Storm 的 bolt 处理,基于Redis 去重

协同开发AI 程序,通过对爬取下来的文章和关键标签信息,做重要文本信息提取为后续文本打上AI 标签,

包含基本统计报表开发,文章研判、情感分析、正负面分析、传播路径分析、文本段落查重。微博评论分析,

僵尸粉分析。文本推荐。总体为使用hanlp 分词和构建文章片段相似度距离并查找,词性标注和命名实体维护,分词优化。