腾讯云汤文军:云原生分布式云 一朵云解决 IDC客户上云困境

2023-07-04 15:51:39来源: 热度:

全球分布式云大会是分布式云技术和商业交流的旗舰级平台,2023全球分布式云大会·北京站将于6月28日-29日正式召开,本次大会以“云智筑基”为主题,探究人工智能(AI)在大模型全新的发展风口,构建新型泛在算力网络的趋势,如何利用分布式云、分布式数据库、分布式存储、边缘云等构建新型算力网络,打造更强大的数字经济价值引擎。

本次大会来自腾讯云、火山引擎、阿里云、华为云、、百度智能云、蚂蚁集团等云计算数字科技服务商,以及中国电信、中国移动、中国联通三大运营商等数技术专家,从分布式云行业前瞻性发展趋势,底层云计算基础设施突破性关键技术,分享高尖精技术和实践案例,共同打造云计算领域的饕餮技术盛宴。在2023年06月28日上午举办的分布式主题报告会上,腾讯云边缘容器项目负责人汤文军在大会上发表题为《云原生分布式云 一朵云解决 IDC客户上云困境》的精彩演讲。

云原生分布式云中的挑战

分布式云本身包含多层面内容,包括多种计算层面的产品、容器平台层产品以及上层 SaaS 服务等各方面。《“云原生分布式云”,一朵云解决 IDC 客户的上云困境》顾名思义,通过云原生的方式,让分布式云的用户轻松便利地使用云原生相关服务。

企业使用分布式云产品概括而言主要有两个核心场景:

1. 企业希望将业务迁移至公有云,IDC服务器过保后才可进行裁撤,这是一个企业信息化建设的过程。因此,用户在上云过程中表现出的主要需求是尽可能利用未过保的基础设施,并且希望迁移过程足够平滑,能够实现低成本迁移。

2.部分企业会基于弹性、成本、稳定性等因素长期保持云上资源和 IDC 资源统一管理的混合云架构。

在这两个场景中,企业都会面临混合基础设施管理和混合云应用治理两方面挑战。

从混合基础设施管理层面而言,用户使用云的形态复杂,位置分散,环境多样。企业有时延敏感型业务、也有本地计算等需求,算力资源分散在中心云、IDC和边缘等各种位置。这类位置的网络环境多样,如专线连接,5G/公网等弱网环境。因此,为满足用户不同位置不同场景统一管理的需求,腾讯云提供TKE RegisterNode、TKE Connector和TKE Anywhere三个能力,并通过TDCC 提供统一使用入口。

而在混合云应用治理层面,企业有弹性部署、安全合规、容灾和成本等方面考量,需按业务类型将业务分布在云上与云下,并实现成本最优和业务的安全稳定。稳态业务部署在IDC,弹性业务部署在云上;数据敏感类业务会部署在IDC,创新型业务部署在云上,基于云上云下的成本与定价体系不同,将不同业务分别调度至云上或云下。针对该类需求,腾讯云基于腾讯开源的 CNCF 项目Clusternet实现分布式云中心TDCC就能够支持多集群应用治理能力,实现基于成本、稳定性和利用率的多集群调度,最终达到稳定性和成本最佳平衡。

云原生分布式云面向多云多集群和边缘场景的应用管理平台,同时也实现公有云对IDC 1 比 1 输出,一次构建,处处运行,可简单概括为一个中心、三类服务、四种场景。

其中,TDCC 是云原生分布式云的核心,负责云上云下多集群的统一管理和运维。三类服务从下往上分布,底层基础设施层通过 TKE Anywhere、注册节点及 Connector 三个产品覆盖;中间 PaaS 服务层通过 TKE DataService满足客户需求;上层应用层通过 TKE AppEngine 负责,将多集群应用分发至混合多云以及边缘地域。

而四种场景指的是,资源利旧场景、云上交付场景、混合多云场景及云边一体场景。在资源利旧场景中,将用户IDC 中存量的服务器加入公有云统一运维管理;云上交付场景中则通过公有云将容器集群交付至 IDC 和边缘生产现场;混合多云场景能够满足用户通过云上控制面,统一管理多云多集群;云边一体场景中可满足用户对边缘计算需求,实现云原生化的边缘自治,多地域管控等能力

TKE系列产品组合,实现客户视角一朵云

面对多种复杂基础设施场景,腾讯云通过一系列产品组合,并由TDCC提供的统一入口,实现客户视角一朵云。

a) TKE RegisterNode: 主要针对存量IDC节点提供快速轻量上云能力,将控制面托管在公有云上,由云厂商进行运维管理;企业只需在IDC上运行注册脚本即可分钟级实现集群的构建。同时通过 CNCF 项目 SuperEdge 可以一键开启边缘能力,实现云边/边边协同调度。

b) TKE Connector:主要针对 IDC 已有K8S集群,客户不想运维或缺少部分运维管理能力时,可将集群连接至云上,由TKE统一管理,在云上实现多集群运维管理,并可将标准的公有云云能力投递到自建集群以补齐自建能力的不足。

c) TKE Anywhere:主要针对期望云下有完整独立集群,但又不想负责集群的创建及升级等基础运维管理的客户。可通过TKE控制台在云上完成云下集群的搭建,在30分钟内完成从云上投递生产可用集群和PaaS组件至云下,连接可运维,断开可自治。

TKE RegisterNode

腾讯云TKE注册节点服务是针对混合云部署场景的全新升级节点产品形态,允许用户将非腾讯云的主机托管到容器服务 TKE 集群,并由 TKE 负责集群生命周期管理。根据用户 IDC 和云端连接方式不同,同时提供“专线版”和“边缘版”两种节点注册方式。

“专线版”与“边缘版”两种方式分别解决用户两个不同的应用场景。边缘版本主要应对边缘计算场景,用户想要通过 TKE 公有云纳管多地域的边缘节点和边缘设备;专线版主要满足用户 IDC 节点无缝接入云上,实现云上云下统一调度

通过 TKE 注册节点,腾讯云可尽力解决用户自研上云中遇到的 4 个难题:

1.实现资源利旧、利用率提升:注册节点通过纳管 IDC 节点实现基础的资源利旧,同时提供 Request 推荐、动态调度、节点超卖等能力以及 qGPU 能力,进一步提升 IDC 资源利用率。

2.节点托管运维:注册节点将控制面运维在云上,免去IDC 本地搭建集群成本,只需运维节点服务即可,同时无缝集成云上的日志监控、审计、安全等标准能力。

3.云上云下统一调度:支持在一个集群中同时调度云上 CVM 节点和 IDC 节点,方便将云下业务扩展至云上。

4.集群运维与管理:通过注册节点的边缘版本实现用户通过公有云将自由节点加入到 TKE 集群进行运维和管理。

此外,注册节点还从云上无缝继承多种增值服务能力,其中包括节点放大与动态调度、全链路优化能力、全链路可视化、成本优化等。

TKE Anywhere

腾讯云云原生分布式云推出的 TKE Anywhere 产品可通过公有云云上服务将完整的 TKE 产品交付到用户 IDC 现场,并通过 TKE Connector 产品可将此集群注册到公有云,实现公有云管控本地容器平台,提高交付和运维效率。该产品主要针对两种客户应用场景:第一种是云上交付轻量级容器平台,另一重场景是 SaaS 客户的多局点交付于管理。

TKE Anywhere 产品优势在于以下三点:

1.免运维:免去运维 K8s 集群的成本,由腾讯云统一运维管控;

2.公有云集群能力无缝接入:云上 TKE 集群能力交付至云下,快速获取集群管理能力;

3.多种交付形式:TKE Anywhere 软件交付或者通过一体机方式交付。

TKE Connector

TKE Connector 注册集群产品是用户将本地K8s 集群和其他云厂商 K8s 集群接入腾讯云容器服务平台进行统一管理的集群形态。该产品主要面向两个场景:第一个场景是用户在多家云厂商下使用容器服务,需要进行统一管理;第二个场景是用户同时在云上和云线对 K8s 集群有统一管理的诉求。

通过 TKE Connector 注册节点可屏蔽多集群之间 IaaS 层差异;同时基于 DNS 和全局流量调度技术,实现统一的流量调度与接入;并通过感知都匀多集群的容量、成本以及性能差异,实现业务的单元化部署和智能切换,满足夸云多活以及容灾的需求

通过 TKE Anywhere、TKE Connector产品可实现任意位置创建集群,纳管任意 K8s 集群能力;适用于多云、混合云、IDC 上云以及云边一体的场景;实现云上云下的统一管控、一致体验、灵活弹性等特性,同时通过CNCF 一致性认证。

TDCC — 解决集群管理与统一应用分发

DistributedCloud

基于TKE注册集群能力,腾讯云不断丰富云上 TDCC 产品以解决集群管理和统一应用分发的痛点问题。

1.统一的集群管理:通过用户集群反向注册方式解决用户集群ApiServer服务暴露的安全问题;

2.轻量的多集群管理:AA 方式管理和部署,不依赖额外的存储和端口,支持PUSH,PULL两种模式;

3.管控面高可用:公有云后台依赖万级集群规模管理经验,完全托管服务保证可靠性;

4.多集群应用分发问题:应用分发、差异化等策略配置能力支持应用迁移、一键开区、灰度发布、批量发布复杂的业务场景;

5.完全兼容 Kubernetes 的标准API、Helm Chart 以及自定义的 CRD,原有K8s业务无需大规模改造,方便用户业务接入 具备管理多集群的能力;

6.解除技术绑定:核心组件开源,Clusternet, TKEStack, SuperEdge等。

同时 TDCC 和腾讯云公有云服务全线打通,支持将公有云核心能力延伸到用户IDC集群以及其他多云环境中。

TDCC 和腾讯云完整账号体系打通,能解决多集群场景下的统一认证和权限分发问题,管理员可通过 TDCC为不同账号进行授权并生成访问凭证,同时能够进行详细的准入控制和审计。

通过云联网的能力,TDCC能够解决多场景网络互通和性能问题,同时支持单集群多网络模式;在性能方面支持 ENI 直通 LB 实现全面呃零损耗网络,并且独家支持网络弹性限流能力。

在网络的另一个方面,TDCC也支持多种环境下多种类型的 ingress controller,包括传统的应用型 CLB、Istio gateway 专用型网关以及标准的 nginx-ingress-controller。

最后,通过云上的监控日志、容器安全、在离线混布以及成本大师等高阶能力,可让用户在 IDC 侧轻松拥有云上 TKE 的运维管理经验。

TKE for DataService

除TDCC 多集群管理以外,腾讯云针对分布式云环境中的中间件服务提供 TKE DataService产品。TKE for DataService 是分布式云环境中将腾讯云数据库PaaS、SaaS产品能力,利用远程投递、离线自治、服务纳管等功能,为客户提供多云、IDC、边缘节点等多环境下一致的数据库、中间件引擎及管理体验

为解决传统的 PaaS 服务中存在的问题,如公有云和IDC 私有化的 PaaS 能力不一致,多云之间的 PaaS 能力无法统一,并且PaaS 的能力不够弹性等,TKE DataService 通过云上投递能力,远程在多云环境中部署统一的中间件服务并提供统一的交互体验;同时能够实现离线自治,在和腾讯云 TDCC 断网的情况下仍然能够离线独立运维;此外,这类中间件服务都可对接云端 SaaS 服务,提供容灾多活备份等高阶能力,并以此满足分布式云环境下用户对中间件的核心需求。

TKE AppEngine

应用部署层面的TKE AppEngine则可在多集群管理的基础上,通过云端统一发布和管理多个云上的应用服务,同时实现应用的跨云多活,故障迁移和容灾备份,并能实现多集群间弹性伸缩和按资源水位调度。

其主要特点包括:

1.独立灵活的策略和应用配置:支持多种分发策略和差异化策略,实现应用一次部署处处运行;

2.智能的流量管理:提供多种流量管理方案,按需调配接入流量,灵活控制应用间调用策略;

3.安全管控能力:基于公有云安全能力,云上云下一体化认证和授权管理,保障业务安全合规;

4.业务零侵入:零学习和改造成本升级至多云多集群架构,完全兼容 K8s 的标准 API、Helm Chart 以及自定义的 CRD,实现体验一致的多云混合资源、服务、应用的统管能力,最小化多云运营成本。

案例:某新能源汽车公司


责任编辑:林西