从数据可用性、安全性到模型选择和监控,生成式ai的加入便意味着要重新审视云架构。 所以,如果在构建一个云架构同时也在设计生成式ai驱动的系统。你需要做哪些不一样的改变?还需要做什么?目前出现了哪些最佳做法? 结合过去20年的经验,以下是作者给出的一些建议,整理如下,望诸位有所启发。
1、理解你的用例
明确定义云架构中生成人工智能的目的和目标。如果我反复看到任何错误,那就是没有理解商业系统中生成人工智能的含义。了解您的目标是实现什么,无论是内容生成、推荐系统还是其他应用程序。这意味着写下内容,并就目标、如何实现目标以及最重要的是如何定义成功达成共识。这对于生成人工智能来说并不新鲜;这是赢得每一次迁移和构建在云中的全新系统的一步。
我看到许多云中的整个生成ai项目都以失败告终,因为它们没有很好地理解业务用例。公司制造了一个很酷的东西,但不会给业务带来任何价值。这是行不通的。
2、数据来源和质量是关键
识别生成人工智能模型训练和推理所需的数据源。数据必须是可访问的、高质量的,并经过仔细管理。您还必须确保云存储凯发app官网的解决方案的可用性和兼容性。生成型人工智能系统高度以数据为中心。我称之为面向数据的系统;数据是推动生成性人工智能系统产生结果的燃料。垃圾进,垃圾出。
因此,将数据可访问性作为云架构的主要驱动因素是有帮助的。您需要将大多数相关数据作为训练数据进行访问,通常将其保留在现有位置,而不是将其迁移到单个物理实体。否则,你最终会得到多余的数据,没有单一的真相来源。
在将数据输入人工智能模型之前,考虑高效的数据管道来预处理和清理数据。这样可以确保数据质量和模型性能。这大约是使用生成人工智能的云架构成功率的80%。然而,这一点最容易被忽视,因为云架构师更多地关注生成人工智能系统的处理,而不是为这些系统提供数据。数据就是一切。
3、数据安全和隐私
正如数据很重要一样,应用于数据的安全性和隐私性也很重要。人工智能的生成处理可以将看似毫无意义的数据转化为可以暴露敏感信息的数据。
实施强有力的数据安全措施、加密和访问控制,以保护生成人工智能使用的敏感数据以及生成人工智能可能产生的新数据。至少要遵守相关的数据隐私法规。这并不意味着在你的架构上安装一些安全系统作为最后一步;安全性必须在每一步都融入到系统中。
4、可扩展性和推理资源
规划可扩展的云资源,以适应不同的工作负载和数据处理需求。大多数公司都考虑自动扩展和负载平衡凯发app官网的解决方案。我看到的一个更重大的错误是构建规模良好但成本高昂的系统。
最好平衡可扩展性和成本效率,这是可以做到的,但需要良好的架构和finops实践。此外,检查训练和推理资源。我想你已经注意到,云会议上的许多话题都围绕着这个话题,这是有充分理由的。选择具有gpu或tpu的适当云实例进行模型训练和推理。再次,优化资源分配以提高成本效率。
5、考虑模型的选型
根据您的具体用例和需求,选择示例性的生成ai架构(通用对抗性网络、转换器等)。考虑用于模型培训的云服务,如aws sagemaker和其他服务,并找到优化的凯发app官网的解决方案。这也意味着要理解你可能有许多相互关联的模型,这将是常态。
实施稳健的模型部署策略,包括版本控制和容器化,使ai模型可供云架构中的应用程序和服务访问。
6、监控和日志记录
设置监控和日志系统以跟踪ai模型性能、资源利用率和潜在问题不是可选的。建立异常警报机制,以及为处理云中生成人工智能而构建的可观察性系统。
此外,持续监控和优化云资源成本,因为生成式人工智能可能是资源密集型的。使用云成本管理工具和实践。这意味着让finops监控部署的各个方面——最低限度的运营成本效率和评估架构是否最佳的架构效率。大多数体系结构都需要调整和持续改进。
7、其他考虑
需要故障切换和冗余来确保高可用性,灾难恢复计划可以在系统故障时最大限度地减少停机时间和数据丢失。必要时实施冗余。此外,定期审计和评估云基础设施内生成人工智能系统的安全性。解决漏洞并保持合规性。
制定人工智能道德使用指南是个好主意,尤其是在生成内容或做出影响用户的决策时。因此,需要解决偏见和公平问题。目前有关于人工智能和公平的诉讼,你需要确保你做的是正确的事情。持续评估用户体验,以确保人工智能生成的内容符合用户期望,并提高参与度。
无论你是否使用生成人工智能,云计算架构的其他方面都是一样的。关键是要意识到,有些事情要重要得多,需要更加严格,而且总有改进的空间。
参考链接: