Data 科学与 MLOps

我们运用 MLOps 快速实现可靠产品的工业化。.

我们的 MLOps 方法可快速有效地提供可扩展的 AI 模型。.

机器学习（ML）是 AI 的一种形式，它通过良性算法而不是明确的编程，让系统不断从 data 中学习。. 对于使用 data 来更好地了解客户行为、偏好和满意度的微妙变化的公司来说，它具有潜在的价值。.

但是，尽管具备这些能力，机器学习也伴随着挑战和风险。首先，复杂的 ML 模型需要定期刷新，这可能会产生高昂的生产部署成本。其次，如果不密切监控 data 的质量，AI 很快就会出现性能漂移和偏差。. 为了解决这些挑战，我们在所有 Data 和 AI 项目中应用了机器学习运营 (MLOps) 方法，从而缩小了概念验证 (POC) 和生产之间的差距。.

我们的方法受到最具创新精神的软件公司所采用的 DevOps 方法的启发，将软件开发（Dev）和 IT 运营（Ops）相结合。.
其目的是缩短系统开发生命周期，提供高质量的持续交付。.

我们的 MLOps 方法可帮助企业实现 AI 产品的无缝工业化和规模化。.

使用机器学习功能的传统方法有几个缺点：

Data 科学家很难预见生产限制。他们在孤岛上工作，与软件或 data 工程师没有互动。他们在 Python 笔记本中进行的一次性分析需要下游工程师重新修改，以适应工业化要求。这导致了速度缓慢，缩短了产品上市时间。.

缺乏灵活性，导致高运营风险。如果生成的算法存在偏差、不稳定或容易引起客户不满，公司将无法在可接受的时间内做出反应。.

我们秉承 “产品第一 ”的理念，帮助企业将其 AI 资产顺利投入生产，同时预测产业化的限制和风险。我们的 MLOps 模型以稳固的生态系统为基础，从 POC 到产品部署，我们对交付的每个 AI 项目都采用相同的流程。.

加速组织 data 和 AI 转型的成功 MLOps 方法

稳固的监控堆栈.

在每次发布新产品之前，我们都会对所有 data、功能和型号进行测试，以防止质量或性能偏移。.

我们的 data、模型和学习实验均已版本化并记录在案，以确保在发生生产事故时快速回滚。.

弹性机器学习基础设施.

我们将所有机器学习资产（代码、data、模型）嵌入持续集成和持续交付管道 (CICD)，以确保快速、无缝地推出到生产中。.

强大的合作文化。.

我们确保所有利益相关者在同一画布上工作，并将软件工程最佳实践应用于 Data 科学项目（版本、部署环境、测试）。.

阅读我们的 Data Science 博文，了解我们如何为客户应用 MLOPS。.

我们的 Data 科学家热衷于开发工业化解决方案和应对复杂挑战

Data 科学是一个充满挑战的领域，其方法和技术不断发展进步。我们的团队紧跟这些变化，始终关注如何适应新的业务需求。.

我们的 Data 科学团队拥有机器学习专家、技术精湛、积极进取的 data 专家，结合独特的协作方法和 ‘产品至上 ’的思维方式，将帮助您解决最具挑战性的问题。.

我们是务实且注重成果的工程师：我们在工作中采用最先进的算法，优先考虑实施的便捷性和短期投资回报。.

我们解决问题。.

如何提高客户终身价值？如何更好地了解客户旅程？如何预测全新产品的动向，或从数百万社交网络帖子中发现新的消费趋势？

我们的 data 科学家在为不同行业的几家大公司解决问题方面有着良好的记录。.

我们与零售、奢侈品、金融服务、制药、私募股权甚至电信公司合作，利用机器学习和分析技术为客户创造有影响力的解决方案。.

在 Artefact，我们与所实施解决方案的最终用户直接互动。这使我们能够进行 data 科学研究，而不仅仅是为了追求科学之美，而是为了满足实际需求。获得关于产品所能带来的附加值、需要应对的挑战以及产品使用方式的即时反馈，可以让你真正关注重要的事情，并开发出对用户有帮助的解决方案。”

路易丝, Data 科学家

我们以功能团队的形式开展工作，打破各自为政的局面。.

在大多数组织中，data 科学团队各自为政。他们的服务无法扩展到整个价值链，而且经常会创建很少有人能理解和维护的 ‘黑盒子 ’解决方案。.

在 Artefact，我们打破这些孤岛，以实现共同的业务目标。我们的 data 科学家在功能团队中与业务所有者、软件工程师、DevOps 和用户体验设计师等利益相关者协同工作，确保所有目标和优先事项都得到考虑。.

与产品负责人、软件工程师和其他 Data 科学家一起工作是一种真正丰富的体验。团队内部的职责更加明确，这意味着 Data 科学家可以腾出更多时间专注于技术任务，同时随时了解项目各方面的最新情况。尊重敏捷方法的最佳实践也提供了更多的结构，确保我们始终优先考虑能够产生最大价值的事情。.

保罗, Data 科学家

我们首先考虑的是 “产品”！

我们不会止步于 POC（概念验证）阶段，我们会一直走下去，直至实现产业化，并提供具有影响力和复原力的产品。.

我们的 Data 科学家致力于提供工业化的软件，部署有价值和可靠的解决方案是我们的首要任务，远远早于微调我们的 AI 算法。在我们的项目中打下坚实的基础，使我们能够无缝、快速地部署新功能，从而提高价值。.

一个问题通常有许多可能的创新解决方案，根据客户的需求、制约因素和技术堆栈找到最佳解决方案才是精妙之处。我们通常会在孤立的环境中进行概念验证。将模型投入生产是一项复杂的任务，需要采用最佳的 MLOps 实践、严格的监控和评估，以确保并保持最佳性能水平，同时解决技术和道德方面的问题。.

卡里姆, Data 科学家

我们的优势,
我们的专长.

Data 科学是应用领域知识、数学、统计学和计算机科学的交叉学科。.
为了促进我们的研发工作，更好地满足客户需求，并在我们的项目中应用 AI 的最新进展，我们在 Artefact 建立了一套专门针对每个机器学习子领域的工作组。.

NLP

我们分析文本 data（包括推文、电子邮件和发票），以发现新的消费者洞察，提高他们的运营效率，并自动回复客户。.

愿景

我们探索视觉 data（图像、视频），以检测物体、人物和主题，并自动生成新资产。.

预测

我们利用所有时间序列（如销售额、物联网传感器）来预测未来需求和预测市场份额，并检测异常好友。.

ML OPS

我们采用软件工程最佳实践（如版本控制、测试、持续集成和交付），以提供弹性和可扩展的产品。.

E3DA

E3DA 即探索性、道德性和可解释性 Data，我们了解多维 data 集和黑盒模型中隐藏的洞察力和潜在的偏见。.

优化

我们提高复杂生产链的效率，降低运营成本（包括库存控制、网络和交通优化以及劳动力分配）

一个 Data 科学家在 Artefact ?

执行复杂和具有挑战性的任务

从供应链到客户服务，我们的 data 科学家一直在研究各种具有挑战性的课题：预测呼叫中心的电话量、自动回复客户请求、检测美容或奢侈品消费趋势，甚至帮助医生检测 X 射线中的癌细胞。.

在 Artefact 工作也为精通技术的工程师提供了一个机会，让他们加深对业务的理解，更好地掌握大多数主要行业的微妙之处。我们所有的 data 科学家都负责制定量身定制的解决方案，以应对非常专业的业务挑战，并与我们的 C 级客户携手合作，促进采用并将业务逻辑嵌入到智能 AI 产品中。.

在 Artefact 工作最令人兴奋的事情之一就是我们要解决的各种问题。data科学一词可以涵盖自然语言处理、预测或优化等领域的各种技能，因此每项新任务都会带来需要测试的新算法和需要试验的新技术。但是，为工作挑选合适的模型并不是 data 科学家的唯一职责：我们需要非常了解业务的利害关系，才能知道我们在哪些方面能带来最大价值，这意味着我们要与顾问和客户密切合作。为了使我们的工作能够长期发挥作用，我们还需要与软件工程师协调，并运用软件最佳实践将我们的见解转化为产品。.

翁白林, Data 科学家

专门的培训课程，帮助我们的团队成长

Data 科学是一个不断变化的领域，我们致力于不断培训我们的工程师。.

Data Artefact 的科学家可以从我们培训部门精心挑选的大量内部和外部培训中受益，帮助他们达到技术前沿。.
我们提供

- 机器学习培训（NLP、预测、计算机视觉、ML 操作...）
- 获得云认证（GCP、Azure、AWS）
- 软技能培训（口头和书面报告、谈判、项目管理）

培训不止于此：典型的 data 科学家每周都有大量的学习机会。正如我们常说的 “反馈就是礼物”，我们的企业文化就是围绕技术活动而建立的，例如我们的 TechTex，在这里我们分享最新项目的成功与失败，或者我们的代码库委员会（CBC），在这里我们的项目代码会受到我们的编码大师的挑战！

咨询公司中的技术公司

Artefact 是一家咨询公司，但 DS 团队首先是一个技术部门：

- 我们利用最新的模型和 ML 库，如 Sklearn、FastAI、CatBoost、Prophet、Spacy、BERT 及其变体（CamemBERT、DistilBERT......）等。
- 我们拥有多个 cloud，是 GCP、Azure 或 AWS 等最大 cloud 的认证优质客户。
- 我们利用 Docker、Kubernetes、Kedro、ML Flow、Great Expectations 等 ML Ops 框架和实用程序构建 AI 产品！

我们促进团队内部的研发工作，以便了解科技界的最新动态。.

要了解有关我们的项目和最喜爱的软件的更多信息，请查看我们的

我们还为开源社区做出了贡献。要了解更多信息，请查看我们的

罗宾-杜梅尔, 全球首席技术官 Artefact

近年来，我们的领域一直在不断演变，新算法、新方法和新实施层出不穷。在这个瞬息万变的生态系统中保持与时俱进是一项艰巨的任务。因此，作为一个团队，持续培训是我们 Artefact 生活中不可或缺的一部分，可以通过内部项目，让他们在日常遇到的问题中尝试最新技术，也可以在每月的培训日中抽出专门时间进行培训。让我们的 Data 科学家能够继续学习最前沿的课题，不仅能确保我们保持他们的好奇心，还能部分提高他们在团队中的幸福感。.

加入我们

我们的团队在涉及倾向建模和推荐系统的任务方面拥有良好的业绩记录。如果您想进一步了解我们的专业技能，请联系我们并迅速与我们的专家取得联系。.

如果您想加入我们，请关注我们的招聘信息网页 .

我们的技术专家撰写的 Medium 博客文章

一次一个令牌地检测 LLM 中的幻觉

大型语言模型的能力令人惊叹。它们总结、翻译、推理和编码（比我做得更好）。但与我不同的是，它们也因发明...

未来的代理 AI 是否会依赖于知识图谱？

随着企业急于将 AI 投入运行，大多数企业发现他们的 data 基础设施根本不是为自主推理而设计的。如今，多达 80% 的 AI 实施...

丰富 DIY 体验：ADEO 如何使用 AI 连接内容和知识

分类优化是零售业的一个关键流程，它涉及到策划理想的产品组合以满足消费者需求，同时考虑到许多物流因素。.

MotherDuck 解读：新一代 AI 和分析解决方案如何融入您的 Data 堆栈

MotherDuck 通过协作功能将 DuckDB 的分析性能扩展到 cloud，提供比 BigQuery 快 4 倍的性能，并通过...

利用 Python 中的离散选择模型进行分类优化

分类优化是零售业的一个关键流程，它涉及到策划理想的产品组合以满足消费者需求，同时考虑到许多物流因素。.

偏好对齐总是增强基于 LLM 翻译的最佳选择吗？实证分析

用于机器翻译（MT）评估的神经指标因其与人类判断的相关性优于传统词汇指标而日益突出。

选择-学习：从机器学习的角度为业务环境建立大规模选择模型

离散选择模型的目的是预测个人从被称为 "品种 "的备选方案中做出的选择决定。著名的应用案例包括预测...

生成式 AI 时代：正在发生的变化

对 ChatGPT 和其他生成性 AI 的大量和多样化回应，无论是怀疑还是热情，都表明了它们正在带来的变化和影响。.

Artefact 如何为软件工程师开发公平而简单的职业系统

在当今充满活力、不断发展的科技行业中，职业道路往往会让人感觉像在机会密林中蜿蜒曲折。随着科技行业的快速发展，我们的职业生涯也在不断变化。.

为什么需要 LLMOps

本文介绍了 LLMOps，这是一个融合了 DevOps 和 MLOps 的专业分支，用于管理大型语言模型（LLM）带来的挑战...

释放 LangChain Expression Language (LCEL) 的力量：从概念验证到产品化

在不到一年的时间里，LangChain 已成为与 LLM 交互的最常用 Python 库之一，但 LangChain 主要是一个库...

我们如何使用 Treasure Data Unification 和 SQL 处理配置文件 ID 调节

在本文中，我们将解释 ID 协调所面临的挑战，并展示我们在客户 Data 平台中创建统一配置文件 ID 的方法，特别是...