丨引子
作为国内最大的互联网公司,腾讯是中国拥有最丰富的社交和文娱场景数据的科技公司之一。自23年3月以来,国内各大厂开始「百模大战」。然而直到9月7日,腾讯才姗姗来迟的发布了混元大模型。
此后,腾讯也没有像其他大厂一样高调大刷存在感,而是低调默默地建设 AI 基础设施、产业生态,以及探索应用到腾讯原有业务和产品。与此同时,腾讯主要的竞争对手字节正在大模型赛道火力全开,内部布局完成了组织架构调整,还连续推出了十多款基于 AI 原生的产品。吃瓜观众不禁感叹,腾讯怎么慢下来了?
然而,腾讯在投资大模型上似乎并没有任何减速,甚至做到了扫货式投资。5月20日,月之暗面被曝出正与投资者洽谈融资事宜,投资前的估值为 30 亿美元,投资方正是腾讯。在此之前,腾讯已经投资了智谱AI、百川智能、Minimax和深言科技。
自研产品上,腾讯日前“虽迟但到”,终于开始大力宣传其新产品腾讯元宝和腾讯元器。本文梳理了腾讯AI团队架构和发展沿革,以及腾讯在AI大模型和产品上的布局。Enjoy!
腾讯AI团队和团队布局,根据公开信息整理
丨腾讯AI团队架构
2016年,腾讯集团开始着手实施其人工智能战略,并成立了腾讯人工智能实验室(AI Lab),致力于全球范围内招募顶尖的科学家。这个实验室隶属于腾讯的技术工程事业群(TEG),其研究重点包括计算机视觉、语音识别、自然语言处理和机器学习等基础领域,同时也探索在内容、社交和游戏等方向的应用。
进入2017年,腾讯提出了一个由三个层次构成的AI战略架构:基础研究、场景共建和能力开放。在这个架构下,腾讯AI Lab和新成立的机器人实验室RoboticsX成为”AI+机器人”的两个基础部门,它们共同致力于连接虚拟世界与现实世界,并致力于实现通用人工智能(AGI)的目标。
到了2018年,腾讯的人工智能和前沿科技实验室矩阵正式形成,AI研究的重点转向了更高层次的多模态研究和通用人工智能。腾讯的AI实验室矩阵包括AI Lab、腾讯优图实验室以及微信事业群下的AI团队,这标志着腾讯AI核心研发体系的确立。同时,腾讯宣布了其历史上的第三次重大架构调整,将原本分散在不同部门的商业化团队合并为”广告营销服务线”。这一举措为混元大模型的诞生奠定了基础。
2022年4月,腾讯首次公开了其”混元”大模型的研发情况。2023年2月,腾讯宣布成立”混元助手”项目组,针对类似ChatGPT的对话式产品进行研发。该项目组由张正友领导,俞栋、王迪、刘田担任项目经理,目前至少有7位组长和7位赞助商参与。
2023年9月,在腾讯全球数字生态大会上,腾讯的混元大模型正式亮相,并通过腾讯云向外界开放。
值得注意的事,腾讯AI的组织架构与字节有明显的不同。腾讯的组织模式以模型和技术为核心而非以产品为核心。不仅如此,腾讯的组织结构更为复杂和不透明,光是AI相关研究院的数量就颇多。混元大模型的开发也是抽调了各个业务线的团队组织在一起。
腾讯AI团队组织架构,根据公开信息整理
腾讯 AI Lab 是腾讯公司旗下的人工智能实验室,成立于 2016 年。作为腾讯在人工智能领域的重要布局之一,该实验室旨在推动人工智能技术的发展,探索其在各个领域的应用,为全球用户提供更加智能、便捷的服务。AI Lab 隶属于技术工程事业群 (TEG),专注于包括计算机视觉、 语音识别、自然语言处理和机器学习方向的基础研究,和内容、社交、游戏等方向的应用探索。
AI Lab 官网:https://ai.tencent.com/ailab/
腾讯 AI Lab 的定位是:
腾讯优图实验室成立于 2012 年,是腾讯公司旗下顶级人工智能实验室。优图聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地。
2017 年之后,伴随着腾讯开源策略及 AI 开放平台的推进,优图实验室输出其多年的 AI 积累和产品能力,并与腾讯 AI Lab、腾讯云等深度融合,打造了一系列人工智能产品,在提升腾讯云 AI 产品矩阵的同时,挖掘客户痛点、切实为行业降本增效。
腾讯优图官网:https://open.youtu.qq.com/
腾讯优图实验室的主要研究领域集中在计算机视觉和深度学习技术:
微信AI部门致力于为语音识别、自然语言处理、计算机视觉、数据挖掘和机器学习等人工智能技术的发展带来革命性进步。
微信AI官网:https://ai.weixin.qq.com/
微信AI研究的几个关键领域包括:
丨腾讯AI产品和应用
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生强调,腾讯的大模型发展策略聚焦于”产业实用”。打造大模型只是开始,关键在于将技术应用到产业场景中,创造实际价值。
因此,相较于开发新产品,腾讯更注重将大模型技术融入现有业务和产品中。目前,混元大模型已在600多个腾讯内部业务和场景中进行了测试和应用。比如微信读书基于混元大模型,推出了AI问书等新功能,有效提升了用户的阅读效率和体验。腾讯会议推出AI小助手,即时回答会议中的问题,显著提高了会议效率。
就腾讯混元的原生产品来说,腾讯元器和腾讯元宝刚刚上线,未来表现还有待观察。元器和元宝是否能打败扣子和豆包,让我们拭目以待。
混元大模型 (Hunyuan) 是由腾讯自研的大语言模型,具有强大的中文创作能力、复杂语境下的逻辑推理能力和可靠的任务执行能力。
产品网站:https://hunyuan.tencent.com/
该模型基于大量的文本等数据进行训练,覆盖了多个核心优势能力:
腾讯混元介最大模型已拓展至万亿级参数规模,并在 1B、3B、7B、13B 等不同参数量下,均有布局。在腾讯云上,混元大模型也提供了万亿参数 hunyuan-pro、千亿参数 hunyuan-standard、百亿参数 hunyuan-lite 等多种尺寸的模型服务,目前已面向企业及个人开发者全量开放。
其中,hunyuan-standard 最新上线了支持 256k 超长上下文窗口的长文模型,具备单次处理超过 38 万字符的超长文本能力。升级后的腾讯混元,采用混合专家模型 (MoE) 结构,模型总体性能相比上一代提升了 50%,部分中文能力已追平 GPT-4,在处理「时新」问题的表现上,包括数学、推理等方面的能力也有显著提升。多种尺寸的腾讯混元 MoE 模型也即将对外开源,可适用于手机端、PC 端、云/数据中心等不同的部署场景。
在图像生成领域,腾讯的混元文生图基础架构已经升级到与Sora相同的DiT架构,支持中英文输入和理解,并具备多轮绘图能力,同时已对外开源。
在视频生成领域,腾讯混元支持多种视频生成能力,包括文生视频、图生视频、图文生视频和视频生视频。目前,已实现16秒视频生成,并预计在第三季度达到30秒视频生成。目前混元尚未向C端用户开放视频生成功能。
在3D生成方面,腾讯混元已经布局了文/图生3D技术,仅需30秒即可从单张图片生成3D模型。
腾讯 AI 开放平台 汇聚了腾讯内部的顶尖技术、专业人才和行业资源,致力于提供一站式 AI 服务。它依托腾讯 AI Lab、腾讯云、优图实验室及合作伙伴的技术能力,为 AI 技术及产品找到更多的应用场景。
目前,平台提供了多种 AI 解决方案,包括人脸核身、语音识别、AI绘画等,覆盖了众多应用场景。此外,平台还为创业项目提供了全方位的支持,包括技术支持、市场推广、投资对接等,帮助创业者实现快速发展。
平台官网:https://ai.qq.com/
主要特点和功能包括:
腾讯元器是腾讯公司推出的一款基于其腾讯混元大模型的AI智能体创作与分发平台,对标字节的扣子。它允许用户轻松创建和部署智能体,无需编写代码即可实现聊天对话、内容创作、图像生成等功能的开发和接入。腾讯元器提供丰富的预集成插件和知识库资源,大幅降低了智能体的开发门槛,使企业和开发者能够快速构建并使用智能体。
产品主页:https://yuanqi.tencent.com/
主要特点和功能包括:
腾讯元器支持一键分发到腾讯的全域渠道如QQ、微信客服等,为用户提供便捷的智能体应用体验。
腾讯元宝是一款基于腾讯混元大模型的智能助手 APP,旨在为用户提供便捷、智能的生活服务,对标字节的豆包。腾讯元宝可以帮助用户管理日程、设置提醒、查询天气、预订酒店等,同时还具备语音识别和语音合成能力,让用户可以通过语音与腾讯元宝进行交流。
此外,腾讯元宝还可以与其他腾讯应用进行集成,为用户提供更加丰富的服务体验。腾讯元宝的发布日期是2024年5月30日,并且已经在多个应用商店上架,包括应用宝、小米、华为、vivo、OPPO以及苹果App Store等.
产品主页:https://yuanbao.tencent.com/chat
腾讯元宝的核心功能包括:
此外,腾讯元宝还依托于腾讯的生态优势,在AI搜索方面接入了微信搜一搜、搜狗搜索等搜索引擎,并通过AI搜索增强,提升了时新类和知识类问题的效果,使得搜索更加高效,同时内容覆盖了微信公众号等腾讯生态内容及互联网权威信源,提高了答案的准确性。
实际测试中,元宝APP虽然推出了许多新功能,但实际上更像是腾讯混元小程序的一个增强版本。在使用体验方面,元宝暂时还无法与豆包相媲美。
而元宝的AI搜索功能中,其数据来源涵盖了微信搜一搜、搜狗、腾讯新闻、腾讯云开发社区等多个平台,这是腾讯体系的绝对优势。然而,元宝目前还无法访问知乎、小红书、今日头条、抖音等其他主要平台的内容。
智能创作助手 Effidit (Efficient and Intelligent Editing) 是腾讯 AI Lab 推出的一个研究性原型系统,旨在探索利用AI技术提升写作者的写作效率和创作体验。
产品网站:https://effidit.qq.com/
Effidit 支持中英两种语言的输入,提供了一系列功能:
此外,Effidit 还推出了专门针对学术写作用户的 “文涌·学术版”,增加了跨语言例句检索和语义增强的论文检索等功能。Effidit 的特色在于其多维度的文本补全能力和多样化的文本润色结果,以及全方位的辅助写作能力,旨在通过人机协作的方式降低内容出错的风险,提升写作者的创作体验。
ARC图片增强是一款由腾讯AI产品提供的图像处理工具,包括人像修复、人像抠图、动漫增强等,可有效提升图片的品质和美观度,可用于修复老照片或者照片去背景等场景。
产品网站:https://arc.tencent.com/zh/ai-demos/faceRestoration
产品的特点和功能:
腾讯智影 是腾讯推出的在线智能视频创作平台,它融合了多种 AIGC 能力,旨在简化视频创作过程,使得用户只需使用一个工具就能完成智能视频的创作,提供了包括智能视频剪辑、特效处理、音频配乐等在内的多种智能创作功能,帮助用户高效地制作出高质量的视频内容。
产品网站:https://zenvideo.qq.com/
主要特点功能包括:
腾讯云智绘 (AI Design Creative) 是腾讯推出的一款面向个人创作者和中小型企业的素材智能化设计生产平台。它提供在线工具,帮助用户创建各类形态的素材,适用于各行业的新媒体运营等场景。
产品网站:https://zhihui.qq.com/
主要功能和特点如下:
腾讯云智绘为企业提供深度定制接口,提供丰富优质的创意素材,实现秒速海量的生产服务,保证稳定可靠的输出品质,旨在帮助用户和企业实现增效降本的目标。
腾讯觅影是腾讯公司推出的专注于医疗健康领域的人工智能平台。它通过结合先进的AI技术和医疗专业知识,旨在提升医疗服务的质量和效率。
产品网站:https://tencentmiying.com/official/
关键特点和产品:
腾讯交互翻译TranSmart是腾讯公司推出的一款翻译产品,由腾讯AI Lab负责研发。腾讯交互翻译融合了腾讯人工智能实验室自研的交互式机器翻译、神经网络机器翻译、 统计机器翻译、语义理解、信息检索等技术,帮助用户更快、更好地完成翻译任务。
产品网站:https://transmart.qq.com/zh-CN/index
关键特点和产品:
腾讯翻译君 是一款在线翻译工具,它基于腾讯 AI Lab 的先进技术,提供了实时会话翻译服务,支持多种语言之间的互译。这款产品特别适用于需要跨语言沟通的场合,如境外旅游、国际交流、商务会议等。
产品网站:https://fanyi.qq.com/
腾讯翻译君的主要特点如下:
AI 虚拟人:未伴(国内已下架)
“未伴”是一个集AI陪聊、AI伴侣写真等多功能于一体的AI聊天产品,与传统的社交App不同,“未伴”中的聊天对象均为AI伴侣,可实现人机社交的全新玩法。而且在AI伴侣的选择上,用户既可以选择预制或其他用户创建的AI伴侣,也根据自身要求创建新的AI伴侣,且每个用户可创建的AI伴侣数量不设上限,创作好的AI伴侣会存放于好友列表中。
5月27号,未伴宣布逐步停止创建、搜索、聊天及朋友圈功能,并在下个月14日正式停止在中国大陆地区的服务,团队的重心也将集中在非大陆地区的迭代运营上,发力出海。
微信读书的AI问书功能是一项集成在微信读书应用程序中的创新服务,它利用腾讯混元大模型的先进技术,为用户提供智能化的书籍内容查询和问答体验。
关键特点和产品:
腾讯小微是基于微信AI团队智能对话系统打造的智能语音助手解决方案。接入腾讯小微的设备不仅可以通过自然语言交互来使用音乐、视频、社交、天气、智能家居等技能,还能通过腾讯小微技能平台自定义配置硬件私有化技能。
产品主页:https://xiaowei.weixin.qq.com/
关键特点和产品:
腾讯小微助手是腾讯公司推出的一款智能语音助手,它通过语音交互技术为用户提供便捷的服务和信息获取方式。
关键特点和产品:
“对话即服务”的平台,开放了微信在对话领域积累多年的的智能对话技术,使得开发者及非开发者可简单、快速地搭建智能对话机器人(智能客服),并接入公众号、小程序等,为业务赋能,降本增效。
关键特点和产品:
基于产业对模型的多模态能力需求以及性价比与效率要求,腾讯云在这次峰会上推出三款 PaaS 产品——「大模型知识引擎」、「大模型图像创作引擎」和「大模型视频创作引擎」,通过 PaaS 服务简化数据接入、模型精调、应用开发流程,助力企业更高效、简单地用大模型开发 AI 原生应用,快速接入生产场景。
腾讯混元大模型图像创作引擎是一款基于大模型的图像生成与编辑 API 服务。它结合了输入的文本或图片,智能地创作出与之相关的图像内容。这款引擎具有强大的中文理解能力、多样化的风格选择,以及更好的中文场景支持。
产品主页:https://cloud.tencent.com/product/aiart
目前创作引擎能够支持以下功能:
适用的场景包括:
大模型图像创作引擎为内容创作者和内容运营商提供了高效、便捷的技术支持,有助于提升内容的质量和吸引力。通过使用这款引擎,用户可以轻松地创作出符合自己需求的图像内容,从而在各种应用场景中实现更好的视觉效果和传播效果。
腾讯混元大模型视频创作引擎是一款基于大模型的视频创作工具,提供了视频生成、视频翻译和人脸融合三大核心功能。该引擎采用了腾讯先进的 AIGC 大模型等,以提供高效、智能的视频创作体验。
产品主页:https://cloud.tencent.com/product/segmentportrait
目前该引擎能够支持以下功能:
主要适用场景包括:
腾讯混元大模型视频创作引擎的产品形态包括 API 和 SDK,方便开发者集成和使用。它广泛服务于视频创作领域的各个行业和场景,通过使用这款引擎,用户可以轻松地创作出高质量的视频内容,提高工作效率和创造力。
大模型知识引擎是面向企业客户及合作伙伴的,基于大语言模型的知识应用构建平台,结合企业专属数据,提供知识问答、知识总结等应用范式,更快更高效地完成大模型应用的构建,推动大语言模型在企业服务场景的应用落地。
产品主页:https://cloud.tencent.com/document/product/1759/104194
目前该引擎的优点包括:
来源:
[1] 腾讯小微,https://xiaowei.weixin.qq.com/
[2] 小微助手,https://xiaowei.weixin.qq.com/next
[3] 微信对话开放平台,https://chatbot.weixin.qq.com/
[4] 腾讯云产品介绍文档,https://cloud.tencent.com/document/product/
[5] 腾讯 Tencent AI 全景解析,https://mp.weixin.qq.com/s/XuB4wRwEh1rtC0ySv14xBw
[6] 不要小看「实而不华」的腾讯 AI,https://mp.weixin.qq.com/s/T6iYl7hWPveF9OxbChXAxA
[7] 揭秘腾讯大模型新项目组“混元助手”人才地图,
https://finance.sina.cn/tech/2023-02-27/detail-imyicmyz2049229.d.html
原文:https://mp.weixin.qq.com/s/LyVaTr_DbMnupV_IIuMR0A
既然来了,说些什么?