202408260000003vqe3ova6q3b1b61hvqfcsnjrhi3dwel0l7kyy8hm15ipf2lsp

云上创新 | 行者AI携手华为云提供一体化游戏生产全链路解决方案

作者: 天木辰
发布于: 14/08/2024

          

成都潜在人工智能科技有限公司(行者AI)成立于2020年,2023年加入华为云初创计划,也是华为云加速器的学员企业。通过华为云的技术赋能和全球生态资源网络,加速开拓海外市场。

行者AI基于积累的千亿级海量数据及近10年的AI算法深耕,打造了适用于数字文化产业的垂类大模型,在AI“模型、数据”的核心要素上,拥有完全自主可控的核心竞争力,成果目前已在教育、文旅、游戏、影视等场景应用落地。

截至目前,公司已拥有国家高新技术企业认证、60余项发明专利、20余项软件著作权和SCI论文,获得政府及行业奖项60余项。

业务挑战

系统稳定性需求

公司有很多客户使用API调用,API的使用跟客户的APP深度绑定,SLA必须达到4个9,并且需要保证上线期间也不影响API调用;产研团队每个月都面临2-3次机房故障或者服务器性能bug,故障期间会造成整个研发团队停摆,消耗极大的人力和时间成本。

业务效果预警

行者AI的服务基于AI,服务的效果并不会一成不变,而是随着服务的使用发生或好或差的变化,如何快速跟进算法效果变化,并进行优化,提高客户的满意度,是一个非常核心的问题。

GPU调度

随着客户的增长,服务消耗的GPU资源越来越多,GPU型号也越来越多,针对不同服务,如何有效地调用GPU资源,会严重影响公司的营收与利润,从而影响公司的可持续发展。

 

解决方案

云容器引擎CCE承载API超千万日调用量

行者AI的谛听内容安全,API的日调用量突破了1000万,采用微服务框架,包含多个微服务,部署在数十个容器节点上,需要可靠稳定的容器集群才能保证系统稳定性。行者AI将服务部署在华为云CCE容器集群上,利用CCE调度近百个微服务节点,并利用WAF来防止API被滥用,同时利用流量监测进行服务的弹性伸缩,维持了系统的稳定性,自上线以来,0事故。

服务监测平台实时上报业务与日志数据

行者AI基于华为云ECS和LTS服务搭建了服务监测平台,客户在使用行者AI服务时,会实时上报使用日志,计算出监控业务指标,如发现算法效果下降,会立即安排算法同学进行排查,快速响应客户成功SOP,让用户更满意服务。

GPU调度,严格把控成本

行者AI有大量算法服务,AI生成图片、AI内容安全审核、AINPC、AI生成音乐等,都要使用GPU算力,分散管理带来GPU的利用率比较低。行者AI利用华为云CCE容器管理去集中管理各种GPU服务节点,再利用MongoDB和Redis构建了任务队列,把GPU资源整体利用率提高到了80%以上,降低了GPU的采购成本,也提高业务整体的毛利率。

行者AI云原生架构图

 

客户价值

 

线上业务维稳,支撑1000以上并发能力

从2022年开始,行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上,弹性支撑了业务增长,支撑了1000以上并发能力,完美支撑了客户的需要。

 

GPU资源平均利用率保持在80%以上

行者AI的训练和推理任务,需要的算力差异很大,比如:游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成,2K以内的图片只需要24G显存,而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台,让任务与算力资源得到了正确的匹配,使GPU资源利用率平均保持在80%以上。

数据驱动让算法优化更高效,模型每天可更新10次以上

通过建立指标监测体系、日志分析平台和5分钟报警机制,使线上的算法效果变化尽收眼底,配合客户成功经理的打标和模型的自学习,可以快速输出效果变化的原因、新模型的效果,从而驱动算法工程师是否上线新模型,一天可更新模型10次以上。

 

华为云产品的稳定性和技术人员的贴身服务,让我们能放心的把行者AI的产品和部署在华为云上,同时,通过与华为云加速器团队的紧密配合,我们的业务飞速发展,在给游戏厂商赋能领域达到了业界TOP5,更是占领了游戏内容安全领域第一的位置。
   —— 行者AI技术副总裁  陈超