Accueil Stockage de données à grande échelle : trois problèmes courants mais résolvables

Stockage de données à grande échelle : trois problèmes courants mais résolvables

 

Signée par Keith Nargi, Global CTO, Qumulo

De nombreuses organisations dans le monde disposent aujourd’hui d’énormes quantités de données non structurées dans de multiples environnements. Ce phénomène ne devrait que s’amplifier car afin d’obtenir un meilleur avantage concurrentiel beaucoup d’entreprises veulent de plus en plus donner vie à toutes leurs données pour stimuler l’innovation, la création de produits et de nouvelles solutions à valeur ajoutée. Dans les environnements de stockage, on constate que cette augmentation de quantité de données cause une série de problèmes tant au niveau de la capacité de stockage, que de la performance et de la mise à l’échelle. Ainsi, les exigences de l’entreprise sont en constante augmentation, qu’il s’agisse de la taille du projet, des performances totales ou même des délais d’exécution. 

Voici quelques clés qui vont vous permettre d’accélérer la gestion du stockage de vos fichiers de données à grande échelle.

  1. Le problème de capacité de stockage

La surcharge des systèmes de fichiers est un casse-tête quotidien pour beaucoup d’entreprises et dans ce cadre, la capacité de stockage est le premier problème rencontré. Dans ce cas de figure, il faut d’abord identifier où se trouve le problème dans l’arborescence en analysant la structure du répertoire. Certains outils courants permettent de le faire mais ils statuent en général sur tout ce qu’ils trouvent, additionnent les capacités, et finalement présentent une réponse. Cela fonctionne très bien si votre système de fichiers ne contient que 10 000 fichiers. Par contre, si vous en avez des centaines de millions, voire des milliards, cela change la donne. En effet, il faut parfois jusqu’à une journée pour faire le tour de cent millions de fichiers et obtenir une réponse.

Plusieurs réflexions existent sur la façon de résoudre ces problèmes : la recherche de méthodes modernes d’analyse de la capacité, un système de stockage avec un accès programmatique aux métadonnées de capacité de préférence via une API, l’utilisation des quotas pour aider à contrôler le comportement des utilisateurs qui remplissent l’espace de stockage avec des copies infinies de leurs données de travail et enfin la recherche des systèmes capables de faire évoluer la capacité de manière transparente et facile. 

  1. Les problèmes de performance et de rapidité de stockage 

Bien qu’essentiel, le concept de la performance du stockage peut être assez nébuleux. Cependant, lorsque les spécialistes du stockage en parlent, c’est généralement en termes de débit, d’iops ou de latence pour un seul système ou un ensemble de systèmes. Aujourd’hui, nous constatons que le NAS a vraiment commencé à rattraper son retard. Nous disposons d’un matériel plus rapide, de stockage flash, de meilleures techniques de disposition des données, de meilleures approches de protocole – tous ces éléments aident le NAS à réduire les besoins en SAN/bande passante. Il existe aussi d’autres ressources pour faire face aux problèmes de performances de stockage.

On peut essayer par exemple de s’attaquer aux problèmes de performance potentiels à l’avance. Dans ce cas, dans la mesure du possible, il faut avoir une bonne compréhension des flux de travail prévus avant de découper l’infrastructure et de pouvoir s’attaquer aux problèmes de performance potentiels à l’avance. Aussi, un système correctement dimensionné peut faire toute la différence. On peut économiser de l’argent en achetant uniquement le stockage nécessaire ou en ayant un système évolutif en fonction des besoins. S’il existe beaucoup de charges de travail à consolider, il faut finalement considérer le gain d’efficacité du stockage en combinant des charges de travail à faible et à haute performance dans le même système. Ainsi, il est possible de bénéficier des avantages de l’efficacité du stockage d’un système plus grand sans avoir un impact négatif sur l’une ou l’autre des charges de travail.

  1. Les difficultés de mise à l’échelle du stockage 

En règle générale, les charges de travail se développent au rythme de la croissance des entreprises, ce qui signifie qu’il faut prendre en compte un grand nombre de considérations par rapport à ces charges de travail lorsqu’une augmentation de capacité ou de performances est envisagée. Si des charges de travail imprévisibles existent, il faut favoriser un système de fichiers facile à mettre à l’échelle afin de pouvoir s’adapter plus agilement à la situation et ainsi mieux maîtriser les montées en charge et les coûts de stockage. Il faut aussi se demander s’il est judicieux d’exécuter certaines de ces charges de travail sur le cloud. Si un système de fichiers prend en charge une stratégie de cloud hybride, il est possible de profiter des performances et de la capacité du cloud pour faire éclater les charges de travail en cas de besoin.

En conclusion, les difficultés liées au manque de capacité, de performance et de scalabilité du stockage de données non-structurées à grande échelle sont une préoccupation importante des entreprises aujourd’hui. Cependant, pour véritablement pallier les problèmes, un système de fichiers NAS distribué et évolutif spécialement conçu pour les environnements de cloud hybride et destiné à s’attaquer aux charges de travail hautes performances à grande échelle reste la solution principale.