【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。

简介: “用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

免费开通大数据服务:https://www.aliyun.com/product/odps

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。

关于墨迹天气

北京墨迹风云科技股份有限公司于2010年成立,是一家以“做卓越的天气服务公司”为目标的新兴移动互联网公司,主要开发和运营的“墨迹天气”是一款免费的天气信息查询软件。“墨迹天气”APP目前在全球约有超过5亿人在使用,支持196个国家70多万个城市及地区的天气查询,分钟级、公里级天气预报,实时预报雨雪。提供15天天气预报,5天空气质量预报,实时空气质量及空气质量等级预报,其短时预报功能,可实现未来2小时内,每10分钟一次,预测逐分钟逐公里的天气情况。特殊天气提前发送预警信息,帮助用户更好做出生活决策。在墨迹天气上,每天有超过 5 亿次的天气查询需求和将近20亿次的广告请求,这个数字甚至要大于 Twitter 每天发帖量。墨迹天气已经集成了多语言版本,可根据手机系统语言自动适配,用户覆盖包括中国大陆、港澳台,日韩及东南亚、欧美等全球各地用户。

挑战

墨迹运营团队每天最关心的是用户正在如何使用墨迹,在他们操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。
“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。 之前墨迹使用国外某云计算服务公司的云服务器存储这些数据,利用Hadoop的MapReducer和Hive对数据进行处理分析,但是存在以下问题:
1.成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。
2.网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用网络带宽,彼此之间相互干扰造成数据传输不稳定。

解决方案及架构

针对上述情况,墨迹将日志分析业务逐步迁移到阿里云大数据平台-数加平台之上。 
新的日志分析架构如页面下方架构图所示。
方案涉及的阿里云数加平台组件有:
? 阿里云数加-大数据计算服务MaxCompute产品地址https://www.aliyun.com/product/odps
? 大数据开发套件(DataIDE)https://data.aliyun.com/product/ide
? 流计算(StreamCompute,规划中)https://data.aliyun.com/product/sc
? 流式数据发布和订阅(DataHub)
另外,由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,客户开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。
通过阿里云数加日志分析解决方案,墨迹的业务得到以下提升:
1.充分利用移动端积累下来的海量日志数据。
2.对用户使用情况和广告业务进行大数据分析。
3.利用阿里云数加大数据技术,基于对日志数据的分析,支持运营团队和广告团队优化现有业务。


收益

1.迁移到MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,工作效率提升了5倍以上。
2.存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
3.可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为用户提供个性化的服务。
4.阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。

架构图

TB1hT5EOVXXXXc_apXXXXXXXXXX-940-459.png

140654438e20ad34f9d780ebe629104e32a8d6af

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4天前
|
人工智能 数据可视化 开发工具
Git log 进阶用法(含格式化、以及数据过滤)
Git log 进阶用法(含格式化、以及数据过滤)
|
4天前
|
监控 NoSQL MongoDB
mongoDB查看数据的插入日志
【5月更文挑战第9天】mongoDB查看数据的插入日志
87 4
|
4天前
|
监控 NoSQL MongoDB
mongoDB查看数据的插入日志
【5月更文挑战第2天】mongoDB查看数据的插入日志
99 0
|
4天前
|
存储 监控 数据可视化
无需重新学习,使用 Kibana 查询/可视化 SLS 数据
本文演示了使用 Kibana 连接 SLS ES 兼容接口进行查询和分析的方法。
|
4天前
|
存储 监控 NoSQL
【MongoDB 专栏】MongoDB 的日志管理与分析
【5月更文挑战第11天】MongoDB日志管理与分析至关重要,包括系统日志和操作日志,用于监控、故障排查和性能优化。合理配置日志详细程度、存储位置和保留策略,使用日志分析工具提升效率,发现性能瓶颈和安全性问题。日志分析有助于优化查询、调整配置,确保数据安全,并可与其他监控系统集成。面对日志量增长的挑战,需采用新技术如分布式存储和数据压缩来保障存储和传输。随着技术发展,不断进化日志管理与分析能力,以支持MongoDB的稳定高效运行。
【MongoDB 专栏】MongoDB 的日志管理与分析
|
4天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
14 0
|
4天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
4天前
|
关系型数据库 MySQL 数据管理
MySQL通过 bin-log 恢复从备份点到灾难点之间数据
MySQL通过 bin-log 恢复从备份点到灾难点之间数据
|
4天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
4天前
|
存储 监控 关系型数据库
PHP编写的电脑监控软件:用户登录日志记录与分析
使用PHP编写简单但功能强大的电脑监控软件,记录用户登录日志并进行分析。代码示例展示了如何获取并存储用户IP地址和登录时间到数据库,然后进行登录数据的分析,如计算登录频率和常见登录时间。此外,还介绍了如何通过定时任务自动将监控数据提交到网站,以便实时监控用户活动,提升系统安全性和稳定性。
59 0

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • http://www.vxiaotou.com