热点  |  建模  |  设计  |  开发  |  测试  |  运维  |
  管理  |  需求  |  产品  |  架构  |  大数据  |  AI  |
  过程  |  嵌入式  |  安全  |  课程  |  探索  |
提问  
 
数据科学家
张梓轩 发布于  2020-7-1  浏览数:1639  点赞数:1  

 数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。

数据科学家需要掌握的10项统计技术,快来测一测吧    
数据科学家最常用的十大机器学习算法    
数据科学家必须要掌握的5种聚类算法    
 
实时数仓
田蕾 发布于  2020-7-16  浏览数:2403  点赞数:1  

求 相关的学习资料

数据仓库介绍与实时数仓案例    
看完了这篇实时数仓建设,才发现以前的都白看了(内有美团案例)    
菜鸟实时数仓技术架构演进    
 
元数据的建模和管理
蔡子明 发布于  2020-6-11  浏览数:4712  点赞数:1  

 元数据是用来描述数据的,对于数据架构的提炼,数据仓库的构建是非常重要的。

大数据流程模型和元数据管理-大数据治理概述    
从元数据到元数据管理,这篇文章终于讲清楚了     
元数据管理模块方案-文库    
 
mysql事务
明月 发布于  2020-6-23  浏览数:2885  

 学习

深入学习MySQL事务:ACID特性的实现原理    
mysql事务实现原理    
MySQL的四种事务隔离级别    
 
Apache Kylin大数据分析和机器
钟国军 发布于  2020-6-9  浏览数:2069  

Apache Kylin™是一个分布式分析引擎,提供基于Hadoop的SQL查询和多维分析(OLAP)查询能力,用于大规模数据集的快速查询分析Kylin的多维立方体(MOLAP Cube)、SQL分析查询、OLAP引擎设计、近在线分析,以及Kylin与Hadoop和BI工具的集成和其他工具的整合,可以实现对机器学习的支持。


Kylin大数据分析    
Python + Apache Kylin 让数据分析更加简单!    
效率提升 4 倍,Apache Kylin 在银联的实践    
 
TF-IDF算法
云飞 发布于  2020-6-17  浏览数:830  

  TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。

如何用TF-IDF算法提取文本中的关键词?    
TF-IDF算法及应用    
 
Yarn架构
zhgx 发布于  2020-6-1  浏览数:3934  点赞数:1  

 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

yarn入门——yarn的架构及作业调度    
文档:MapReduce和YARN架构原理    
文档:Mapreduce原理和YARN    
 
图计算
刘伟 发布于  2020-6-9  浏览数:960  

 

图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用顶点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。可抽象成用图描述的数据即为图数据。图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。以高效解决图计算问题为目标的系统软件称为图计算系统。
文档:图计算与Pregel    
Pregel(图计算)技术原理    
Spark(十七)图计算GraphX    
 
MPP架构大数据技术
李旭 发布于  2020-5-21  浏览数:774  
学习基于vertica的MPP大数据架构及应用
Hadoop、MPP技术介绍、对比与应用-文库    
HadoopMPP技术介绍对比与应用-文库    
文档;Vertica 4.1架构概述    
 
Presto资料
苑梦 发布于  2020-5-19  浏览数:833  

 Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。

【实践案例分享】Presto 在有赞的实践之路    
presto 0.166概述    
Presto架构及原理    
 
Redis
郑萍 发布于  2020-4-9  浏览数:3573  

  Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。

文档: redis简要介绍    
文档:Redis介绍与内部实现机制    
学Redis这篇就够了    
 
数据库事务
黄嘉 发布于  2020-5-12  浏览数:775  

 数据库事务( transaction)是访问并可能操作各种数据项的一个数据库操作序列,这些操作要么全部执行,要么全部不执行,是一个不可分割的工作单位。事务由事务开始与事务结束之间执行的全部数据库操作组成。

数据库事务简介(一)--- 所谓事务    
文档:数据库原理 第5章 事务管理    
文档:数据库保护之事务    
 
kudu
张迪 发布于  2020-4-15  浏览数:3559  点赞数:1  

 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。

Kudu设计原理初探    
kudu 架构原理    
Kudu:支持快速分析的新型Hadoop存储系统    
 
SparkSQL
金星月 发布于  2020-4-1  浏览数:3964  点赞数:1  

 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用

Spark计算引擎之SparkSQL详解    
文档:基于SparkSQL的海量数据仓库设计与实践    
SparkSQL基础知识总结    
 
数据资源管理
隋文宇 发布于  2020-2-13  浏览数:4812  点赞数:1  

 相关资料

大数据资产管理总体框架概述    
数据资产管理    
火龙果讲座:数据治理与数据资产管理    

当前第10页,共有16页,共有:312条记录