What are AI Gateways?

An AI Gateway is similar to an API Gateway but designed specifically for handling AI or machine learning requests. It manages, routes, and secures AI-based interactions such as LLM calls, ensuring reliable and scalable integration of artificial intelligence in applications.

How can I use AI Plugins?

Cloud APIM AI Plugins are built-in and require no extra setup. You can use them in both our Serverless and Otoroshi Managed environments to quickly integrate AI features into your APIs.

What AI providers can I use?

Our AI Gateway supports OpenAI, Azure OpenAI, Ollama, Mistral, Anthropic, Cohere, Gemini, Groq, Huggingface, OVH AI Endpoints, and more. Over 10+ LLM providers are currently supported and new ones are added frequently.

Do you support semantic caching?

Yes, semantic cache is available in both Otoroshi Managed and Serverless products. It improves response speed for repeated or similar queries, reduces latency, and cuts down on LLM processing costs.

Can I track LLM costs with your AI Gateway?

Yes. Our AI Gateway, through the Otoroshi LLM Extension, provides detailed cost tracking for every LLM request. You can generate per-model reports and monitor usage to optimize your AI budget effectively.

Is OpenAI integration supported?

Yes, our AI Gateway is fully OpenAI-compatible. You can connect to OpenAI’s API directly or use it alongside other LLM providers in a unified interface with routing, security, and observability.

Can I route traffic to different LLMs?

Absolutely. With our multi-model routing, you can send requests to different LLMs based on rules like cost, performance, or context, making your AI architecture more flexible and optimized.

Is this suitable for enterprise-scale applications?

Yes. Cloud APIM’s AI Gateway is designed for scale. With advanced security, rate limiting, observability, and integration into Otoroshi, it supports production-grade enterprise AI deployments.

How do I enable cost tracking for AI usage?

LLM cost tracking is enabled by default in the Otoroshi LLM Extension. You can view request-level cost breakdowns, generate usage reports, and monitor budgets through the Cloud APIM dashboard.

Do you support serverless AI deployments?

Yes. Our Serverless product includes full support for AI Gateway features — including model routing, security, and usage tracking — with no infrastructure management required.

How does semantic caching reduce AI usage costs?

Semantic caching identifies and stores similar LLM queries to avoid repeated calls. This dramatically reduces the number of expensive model invocations, saving on token usage and improving response times.

Can I set token quotas or usage limits per API or model?

Yes. With our AI Gateway, you can define token quotas, request limits, or model usage caps per route, API key, or user — helping you enforce budget limits and optimize LLM costs across teams.

How do AI Gateways help with cost-efficient model switching?

AI Gateways let you route traffic between models based on cost, speed, or purpose. For example, you can use a cheaper open-source model for basic tasks and reserve premium LLMs like GPT-4 for high-value queries.

Can I monitor cost per model and generate usage reports?

Yes. The Otoroshi LLM Extension includes detailed analytics. You can view cost per request, generate usage and spend reports by model, and export them for billing or optimization purposes.

How do I connect multiple LLMs through a single AI Gateway?

With our AI Gateway, you can connect to multiple LLM providers using a unified OpenAI-compatible API. It simplifies model switching, load balancing, and routing through a single secured entry point.

Passerelle IA boostée par Otoroshi

API universelle compatible OpenAI pour une intégration LLM avancée

La passerelle IA de Cloud APIM permet aux développeurs de se connecter facilement à de grands modèles de langage (LLM) via une interface API unifiée et compatible OpenAI.

Que vous utilisiez OpenAI, des modèles open source ou des déploiements hybrides, notre passerelle garantit un accès cohérent, sécurisé et évolutif.

Cette architecture flexible permet un déploiement rapide, une intégration multi-fournisseurs et une prise en charge multi-environnements. Conçue pour les entreprises comme pour les startups, elle supprime la dépendance vis-à-vis d'un fournisseur et vous permet d'acheminer les requêtes en fonction des performances, des coûts ou de la géographie.

Avec une prise en charge native d'Otoroshi et des fonctionnalités d'observabilité complètes, la passerelle IA est la base idéale pour vos API pilotées par l'IA.

Essayer notre Passerelle IA

AI Gateway benefits

Interface unifiée

Utilisez notre interface tout-en-un : simplifiez les interactions et réduisez les difficultés d’intégration

Prise en charge de multiples fournisseurs

Plus de 10 fournisseurs de LLM déjà supportés, et bien d’autres à venir. Utilisez OpenAI, Azure OpenAI, Ollama, Mistral, Anthropic, Cohere, Gemini, Groq, Huggingface et OVH AI Endpoints

Cache sémantique

Accélérez les requêtes répétées, améliorez les temps de réponse et réduisez les coûts.

Répartition de charge

Assurez des performances optimales en répartissant les charges de travail entre plusieurs fournisseurs

Quotas personnalisés

Gérez les quotas de jetons LLM par consommateur et optimisez les coûts

Observabilité et reporting

Chaque requête LLM est auditée avec des détails sur le consommateur, le fournisseur LLM et l’utilisation. Tous ces événements d’audit sont exportables par différents moyens pour un reporting avancé

Suivez et optimisez vos coûts LLM avec AI Gateway

La passerellle IA de Cloud APIM, optimisée par l'extension Otoroshi LLM, vous offre une visibilité et un contrôle complets sur le coût de chaque demande de modèle de langage volumineux.

Surveillez facilement l'utilisation des API, générez des rapports de coûts détaillés par modèle et ajustez votre utilisation pour réduire le gaspillage et maximiser l'efficacité de tous les fournisseurs LLM.

Le suivi des coûts est activé par défaut dans l'extension Otoroshi LLM, ce qui simplifie le respect du budget tout en faisant évoluer votre infrastructure d'IA de manière sécurisée et intelligente.

Questions fréquemment posées

Une Passerelle IA est similaire à une Passerelle API (API Gateway), mais conçue spécifiquement pour gérer les requêtes d’IA ou d’apprentissage automatique. Elle gère, achemine et sécurise les interactions basées sur l’IA, telles que les appels LLM, assurant une intégration fiable et évolutive de l’intelligence artificielle dans les applications.

Les plugins IA de Cloud APIM sont intégrés et ne nécessitent aucune configuration supplémentaire. Vous pouvez les utiliser dans nos environnements Serverless et Otoroshi Managed pour intégrer rapidement des fonctionnalités d’IA à vos APIs.

Notre AI Gateway prend en charge OpenAI, Azure OpenAI, Ollama, Mistral, Anthropic, Cohere, Gemini, Groq, Huggingface, OVH AI Endpoints, et bien d’autres. Plus de 10 fournisseurs LLM sont actuellement supportés et de nouveaux sont régulièrement ajoutés.

Oui, la mise en cache sémantique est disponible dans les produits Otoroshi Managed et Serverless. Elle améliore la rapidité des réponses pour les requêtes répétées ou similaires, réduit la latence et diminue les coûts de traitement LLM.

Oui. Notre Passerelle IA, via l’extension Otoroshi LLM, fournit un suivi détaillé des coûts pour chaque requête LLM. Vous pouvez générer des rapports par modèle et surveiller l’utilisation pour optimiser efficacement votre budget IA.

Oui, notre AI Gateway est entièrement compatible avec OpenAI. Vous pouvez vous connecter directement à l’API OpenAI ou l’utiliser avec d’autres fournisseurs LLM via une interface unifiée avec routage, sécurité et observabilité.

Absolument. Grâce à notre routage multi-modèles, vous pouvez envoyer des requêtes vers différents LLM selon des règles comme le coût, la performance ou le contexte, rendant votre architecture IA plus flexible et optimisée.

La mise en cache sémantique identifie et stocke les requêtes LLM similaires pour éviter les appels répétés. Cela réduit considérablement le nombre d’invocations coûteuses de modèles, économise des jetons et améliore les temps de réponse.

Oui. Avec notre AI Gateway, vous pouvez définir des quotas de jetons, des limites de requêtes ou des plafonds d’utilisation de modèles par route, clé API ou utilisateur — ce qui vous aide à respecter votre budget et à optimiser les coûts LLM pour vos équipes.

Les passerelles IA vous permettent de router le trafic entre modèles selon le coût, la rapidité ou l’objectif. Par exemple, vous pouvez utiliser un modèle open source moins cher pour les tâches basiques et réserver des LLM premium comme GPT-4 pour les requêtes à forte valeur ajoutée.

Oui. L’extension Otoroshi LLM inclut des analyses détaillées. Vous pouvez visualiser le coût par requête, générer des rapports d’utilisation et de dépenses par modèle, et les exporter pour la facturation ou l’optimisation.

Avec notre passerelle IA, vous pouvez vous connecter à plusieurs fournisseurs LLM via une API compatible OpenAI unifiée. Cela simplifie le changement de modèle, l’équilibrage de charge et le routage via un point d’entrée sécurisé unique.

Passerelle IA : Connectez et gérez en toute sécurité tous vos modèles LLM

Passerelle IA

API universelle compatible OpenAI pour une intégration LLM avancée

AI Gateway benefits

Interface unifiée

Prise en charge de multiples fournisseurs

Cache sémantique

Répartition de charge

Quotas personnalisés

Observabilité et reporting

Connectez tous vos modèles LLM via notre passerelle IA

Suivez et optimisez vos coûts LLM avec AI Gateway

Questions fréquemment posées

Passerelle IA : Connectez et gérez en toute sécurité tous vos modèles LLM

Passerelle IA

API universelle compatible OpenAI pour une intégration LLM avancée

AI Gateway benefits

Interface unifiée

Prise en charge de multiples fournisseurs

Cache sémantique

Répartition de charge

Quotas personnalisés

Observabilité et reporting

Connectez tous vos modèles LLM via notre passerelle IA

Suivez et optimisez vos coûts LLM avec AI Gateway

Questions fréquemment posées

Qu'est-ce qu'une Passerelle IA (AI Gateway) ?

Comment utiliser les plugins IA ?

Quels fournisseurs d’IA puis-je utiliser ?

Proposez-vous la mise en cache sémantique ?

Puis-je suivre les coûts LLM avec votre Passerelle IA ?

L’intégration OpenAI est-elle supportée ?

Puis-je router le trafic vers différents LLM ?

Comment la mise en cache sémantique réduit-elle les coûts d’utilisation de l’IA ?

Puis-je définir des quotas de jetons ou des limites d’utilisation par API ou modèle ?

Comment les passerelles IA facilitent-elles le changement de modèle pour optimiser les coûts ?

Puis-je surveiller le coût par modèle et générer des rapports d’utilisation ?

Comment connecter plusieurs LLM via une seule passerelle IA ?