通义听悟--一个懂你的AI助理

简介: 介绍什么是通义听悟以及通义听悟的功能体验

通义听悟

在体验通义听悟之前,我们首先得知道什么是通义听悟?有什么应用场景?

通义听悟简单来说就是你的工作学习AI助理,通义听悟依托大模型,为每一个人提供全新的音视频体验。可以应用在会议、学习、访谈、培训等场景下实现会议实时语音转写、海量文件批量转写、中英互译实时翻译、快速标记高亮重点以及整理笔记导出记录等。可以说有了通义听悟,就等于有了一个AI助理,会议记录,学习记录等毫无违和感。下面来体验一下吧

音频转文字

打开通义听悟官网首页,首页地址:https://tingwu.aliyun.com/home

image.png

我们先来体验一下【上传音视频】转文字的操作吧,首先我上传一段个人手机通话的录音文件

本地音视频转文字

点击【上传音视频】

image.png

这里我选择【上传本地音视频文件】

image.png

这个通话录音是银行工作人员和我个人的通话,因此我选择【区分发言人】 【2认对话】,点击【开始转写】,首页右上角可以看到具体的操作进度

image.png

等待转写完成之后点击左侧菜单【我的记录】找到最新转写的记录

image.png

可以看到具体的转写内容

20230608_173240 00_00_00-00_00_30.gif

在动图中可以看到银行客服人员和我的详细对话,整个语音转写文字的过程执行很快,10s就结束了,无需等待时间,对于整体对话的转写准确度也有97%以上,只有部分地方名词的转写有所差别,这个对于不同人的不同口音版普通话,AI转写确实也会有不及的地方,个人认可本次语音转写文字的精确度。另外我们再来看一下这个地方

image.png

在通话录音转写成功之后,通义听悟会自动提炼本次语音转写内容关键词、全文概要、章节速览等,对于通义听悟自动提取的功能,精确度100%,关键词很准确,全文概要也完美总结了本次通话内容的核心,很不错的功能,可以说将近两分钟的通话内容,只需要2秒就可以通过全文概要完美提炼到通话要点,这样的AI助理真好,哈哈。

云盘音视频转文字

对于通义听悟【上传音视频】转文字功能除了可以上传本地音视频文件转文字以外,还可以通过绑定阿里云盘,直接选择阿里云盘中的音视频文件转文字,具体的操作大家有需要的可以直接参考官方文档操作即可,文档地址:如何将阿里云盘文件转文字?

实时记录

可以说通义听悟上传音视频转文字的功能很不错,那么更不错的功能还没体验呢,那就是【实时记录】功能,可以说不管大公司、小公司、国企、私企,日常的会议都是必不可少的,那么会议记录以及会议核心内容的提取往往都需要耗费会议记录人员(比如助理)很长的时间,并且还不一定是大家想要的内容,那么通义听悟的实时记录功能将一举拿下这个会议室的痛点。下面我们先来体验吧

点击【开启实时记录】

image.png

这里由于我的是台式机,所以没有安装音频录入设备,不太方便体验,那么我想是否可以通过手机端尝试【开始实时记录】呢,打开手机浏览器登录账号密码,点击【实时记录】

微信图片_20230608180119.jpg

可以看到实时记录功能手机浏览器无法打开,那本次实时记录的功能就下次再体验吧。不过根据对于音视频文件的文字转写结果来看,个人对于实时记录语音转写的精准度以及转写效率还是很有信心的。下面我们再来看看通义听悟对于转写内容的细节操作吧。

通义听悟进阶

上面我们看到上传音视频文件转文字的内容中有一点不准确的地方,通义听悟提供了一键替换功能,比如

image.png

比如点击【通义听悟实验室】开启【问题回顾】,那么通义听悟会自动把通话记录中关于问题的内容高亮展示,方便查找

image.png

比如开通【中英翻译】可以将通话记录中的中文翻译成英文

image.png

最后可以将处理好的文本内容导出成自己需要的格式,这样整个内容整理的工作就大功告成了。

image.png

关于通义听悟当然远不止我体验的功能,还有很多有趣且实用的功能,感兴趣的可以自己探索或者去官方文档查阅哦,文档地址:功能学堂

体验感受

对于这次通义听悟的体验整体上很轻松没有很大压力,首先对于这么一款产品是比较感兴趣的,因为个人也是记录过会议记录的人,深知会议结束之后通过会议录音整理会议记录,提取会议核心内容的耗时和辛苦,所以对于这一款产品的体验就会很期待。整个通义听悟的首页设计很简单,功能点操作也很容易找到,如果真的遇到不明白的地方,官方文档也解释的很明白,并且官方文档的格式设计的也很有趣味,让人愿意去阅读,而不是说那种一堆文字堆积的文档,枯燥乏味。

功能建议

对于已经体验的功能,比如【上传音视频】转文字功能还是很满意的,文字识别很准确,很满足自己的期待。只是对于【实时记录】功能,由于本人没有笔记本,台式机又没有音频输入,手机端通义听悟又不支持,所以非常遗憾没有再好好体验感受一把,说到这里,希望通义听悟技术团队后期可以提供一下手机端的实时记录功能,比如开发钉钉小程序或者在现有的阿里云APP中增加通义听悟场景入口,毕竟手机是每个人都有的,那么开会时通过手机【实时记录】转写会议内容就会显得很便捷了,也就是说开会时只需要手机点击【实时记录】,开会结束后再到电脑端通义听悟页面找到已经转写完成的记录,人工核验一遍,只需几分钟就可以整理出一份会议记录、会议核心内容的文档,解决了过去几小时的工作量,真的是助理界的AI助理,期待ing...

产品联动

其实通过通义听悟的适用场景会议、学习、访谈、培训等不难找到通义听悟的联动产品,比如作为教育培训行业,有的课程内容可能只有视频而由于人力成本的问题没有为视频适配文字字幕,那么这个时候通义听悟就可以一键接入实现视频转文字,方便广大学员提高学习效率,同时也节约了企业为视频添加字幕而进行的人力成本投入。当然,访谈节目字幕也是同样的道理。另外对于CRM产品,日常客服通话语音的管理,以及通话检测的人工投入是否也可以接入通义听悟实现通话语音的实时记录转写,方便CRM管理人员及时发现客服问题,为公司挽回损失呢。总之可以联动的产品还有很多,大家一起去发掘吧。最后给通义听悟团队一个赞,产品不错,转写效果很棒!


相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4天前
|
机器学习/深度学习 人工智能 语音技术
阿里旗下通义系列AI产品有哪些?
【2月更文挑战第16天】阿里旗下通义系列AI产品有哪些?
577 2
阿里旗下通义系列AI产品有哪些?
|
4天前
|
人工智能
钉钉AI助理创造大赛来袭,百万奖金等你拿!
尽情发挥你的想象力与创造力吧>>
|
4天前
|
人工智能 搜索推荐
AI助理小课堂03期
创建组织使用的AI助理 让AI助力企业的每一位员工
|
4天前
|
人工智能 搜索推荐
AI助理小课堂02期
创建可分享的AI助理 助力个人和企业走进智能化生活和工作
|
4天前
|
人工智能 搜索推荐
AI助理小课堂01期
钉钉AI助理 汇集钉钉多项 AI 产品功能 以智能化方式辅助企业日常的工作
|
4天前
|
人工智能 自然语言处理 搜索推荐
通义大模型落地手机芯片!离线环境可流畅运行多轮AI对话
通义大模型落地手机芯片!离线环境可流畅运行多轮AI对话
37 0
|
4天前
|
Web App开发 人工智能
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
71 3
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
|
4天前
|
人工智能 开发者
AI助理市场伙伴招募计划
成为钉钉AI助理市场合作伙伴,赋能千行百业,共创共赢新里程
|
4天前
|
人工智能 自然语言处理 安全
产品更新|宜搭AI助理、精品应用产品力、专属宜搭多项功能升级!
本期功能更新已全量发布,可直接在宜搭内体验。
138 0
产品更新|宜搭AI助理、精品应用产品力、专属宜搭多项功能升级!
|
4天前
|
人工智能 BI 开发者
http://www.vxiaotou.com