Anonim
La somme est supérieure au tout

Electronic News: Quels marchés envisagez-vous pour le processeur Cell et pourquoi?
Meyerson: Le processeur Cell - ou plus exactement l'architecture qui l'entoure - tire parti d'une combinaison de stratégies mises sur le marché par IBM il y a quatre ou cinq ans. Cell est plutôt une vue holistique ou système de ce qu'un processeur doit être. En règle générale, par le passé, les gens ont limité leur pensée aux mégahertz et aux calculs sans pour autant aller au-delà de l’application ultime de l’appareil. Dans notre cas, nous avons conçu une solution plutôt que simplement un processeur. Cela signifie qu'il y aura des zones dans lesquelles il sera très puissant et des zones qui seront inappropriées car vous avez choisi une architecture dont l'optimisation concerne un espace d'applications différent.

Nouvelles électroniques: comme?
Meyerson: Cell, compte tenu de son utilisation prévue, dispose de capacités considérables en termes de gestion de l’accélération de la vidéo et autres images. En conséquence, il est conçu pour offrir d’énormes capacités de traitement grâce à une multitude d’accélérateurs fonctionnant de concert avec un processeur central. Cela n'en fait pas un ordinateur à usage général ou un superordinateur, mais pour l'application à laquelle elle est destinée, il fournit jusqu'à 10 fois plus de puissance que les autres processeurs actuels. Cela ressemble à la stratégie que nous avons adoptée dans notre unité de systèmes. Au milieu des années 90, nous avons reconnu la fin de la feuille de route en matière de performances du système de conduite, qui préoccupe tous les clients, en mégahertz pur.

Electronic News: Et la fréquence d'horloge?
Meyerson: La fréquence d'horloge n'est pas le moteur des performances du système. C'est l'une des grandes erreurs. Et cela devient, dans une certaine mesure, un feu rouge, car la fréquence d'horloge ne garantit pas les performances du système. Il mesure simplement une métrique. Au milieu des années 90, nous avons commencé à chercher une alternative. C’est la capacité totale de traitement d’un système, qui commence au niveau de la puce et s’allonge vers l’extérieur grâce à un certain nombre de processeurs auxiliaires, mémoire, cache, etc. Si vous adoptez une vision plus large, vous constaterez que vous pouvez obtenir un meilleur résultat en équilibrant les compromis. nombreux aspects des performances: fréquence d'horloge, utilisation de l'énergie, traitement réel ou débit des données, intégration des éléments de processeur au reste du système en termes de bus de communication, de l'architecture de bus, du logiciel implémentant chacun de ces attributs de processeur temps dans un processus, tout cela s’unit pour donner un meilleur résultat. Par exemple, en 2001, IBM a mis sur le marché les premiers processeurs multicœurs, notre architecture Power 4. Ils ont été expédiés dans l’un de nos systèmes à la fin de 2004.

n

Electronic News: Ils étaient sur les serveurs haut de gamme, n'est-ce pas?
Meyerson: Oui. Nous l'avons fait tranquillement aussi. Mais c’était une pensée révolutionnaire sur le marché, et vous pouvez vous en servir pendant un certain temps jusqu’à ce que la nécessité d’aller dans cette direction devienne évidente pour tous. La nécessité tient au fait que, lorsque vous réduisez la fréquence d'horloge, vous bénéficiez d'un avantage hautement non linéaire - ce que l'on appelle un avantage super-linéaire - de réduction de la puissance. C'est une autre façon de dire que si vous prenez un processeur capable de fonctionner à 4 GHz et que vous baissez la tension de fonctionnement de peut-être 20%, la vitesse réelle risque de baisser beaucoup moins, peut-être même de 10%. En d'autres termes, si vous utilisez une fréquence de processeur égale à la moitié de ce dont elle est capable, vous pourriez économiser cinq fois plus d'énergie. Ce type d’avantage superlinéaire en termes de puissance signifie qu’il peut être plus avantageux de mettre plusieurs processeurs plus lents sur une matrice plutôt que de tenter de créer un processeur fonctionnant à une vitesse incroyable. Maintenant, nous inclinons tous la tête, mais en 1996, c'était révolutionnaire.

Electronic News: Prévoyez-vous des systèmes à plusieurs puces remplissant une seule fonction plutôt qu’une seule puce remplissant plusieurs fonctions?
Meyerson: La réponse est oui, en général, mais pas uniquement limitée à Cell. Cell est certainement capable de ça. Mais, en tant que déclaration architecturale, lorsque vous examinez des systèmes tels que Blue Gene (le plus récent supercalculateur d’IBM), qui regroupe une multitude de cœurs Power basés sur deux par puce, la puce étant bien plus qu’un processeur, elle présente une architecture complète. représenté sur elle. Cela implique un ensemble remarquable de réseaux pour coordonner les activités d'une multitude de processeurs Blue Gene dans un système.

Electronic News: Mais n'est-ce pas la partie la plus difficile, la mise en place de réseaux qui fonctionnent tous ensemble?
Meyerson: Oui. C'est pourquoi des systèmes tels que Blue Gene et des idées telles que Cell impliquent une très grande profondeur de communication entre les puces et des capacités de coordination entre les processeurs, en plus d'une puissance de traitement brute. Permettez-moi de vous donner un exemple de la raison pour laquelle cela est essentiel: si vous envisagez de concevoir un système de grande taille, les fonctions de contrôle ou de mise en réseau jouent un rôle crucial car elles doivent pouvoir effectuer diverses tâches de contrôle qui vous empêchent de en utilisant un seul type de réseau. Dans le cas extrême où vous souhaitez simplement émettre une commande globale à l’ensemble du système, la bande passante dont vous avez besoin est extrêmement faible, car elle peut prendre la forme de la transmission litaire d’un bit d’arrêt où vous arrêtez momentanément l’exécution pour exécuter une fonction critique. Cela signifie que la bande passante peut être très basse pour ce réseau, mais la latence de l'émission de cette commande doit être proche de zéro pour que vous puissiez synchroniser le système. C'est un extrême. À un autre extrême, lorsque vous stockez simplement des données à partir du résultat des efforts de chaque processeur, vous avez besoin d'une bande passante considérable pour stocker énormément de données, mais vous vous moquez de la latence - le délai dans lequel les données arrivent à un stockage. unité - parce que vous ne récupérez pas de données. Vous déposez simplement un résultat. Vous avez donc des réseaux extrêmement différents, l’un avec une bande passante faible mais pas de latence, l’autre avec une bande passante extraordinaire, mais où vous ne vous souciez pas du délai. Cela vous conduit à avoir plusieurs réseaux et plusieurs capacités. Dans Blue Gene, il existe cinq types de réseaux différents. C'est une approche holistique.

Electronic News: Relions donc cela au processeur de la cellule.
Meyerson: Dans Cell, vous avez une capacité vidéo infinie, qui nécessite beaucoup de données. Vous disposez de plusieurs unités parallèles capables de gérer le traitement de ces données. Encore une fois, ce que nous faisons maintenant, ce sont des solutions techniques. Cela ressemble un peu à la maturation de l'industrie des semi-conducteurs.

Electronic News: Qu'est-ce que cela signifie pour la feuille de route de la loi de Moore?
Meyerson: La loi de Moore et son maintien constituent un énoncé économique plutôt que technique. En réalité, le maintien de la loi de Moore n’est pas pertinent, sauf comme déclaration de coût pour les futurs jetons. Ce n'est pas une métrique de performance. Il a été associé incorrectement à des performances supplémentaires. Il existe une série de lois appelées Classical Scaling qui sont le ciment qui vous a permis de créer cette extension par erreur. Par exemple, si vous indiquez une réduction de 2 fois, vous supposez que les performances s'améliorent. Le fait que la surface de la puce ait été réduite de 2x n’a rien à voir avec la raison pour laquelle la puce était plus rapide ou plus petite. Il y a beaucoup plus d'éléments dans un transistor à rétrécir qui n'ont rien à voir avec la région. L’essentiel de ce qui s’est passé est la mise à l’échelle classique, le ciment qui liait la loi de Moore à la performance, a pris fin il ya environ trois ans. En effet, certains éléments des périphériques n'étaient plus mis à l'échelle.

Electronic News: A quel noeud?
Meyerson: À environ 130 nanomètres, nous avons commencé à voir la casse. Ce qui s'est passé, c'est que si vous n'étiez pas au courant de cette déconnexion et que vous extrapoliez à 90 nanomètres, vous rencontriez de graves problèmes de densité de puissance des puces. La raison pour laquelle la mise à l'échelle classique a échoué est que des éléments clés du périphérique, tels que les oxydes de grille, ont tout simplement cessé de se mettre à l'échelle. Vous avez atteint le point où il était impossible de réduire l'épaisseur d'oxyde en raison de problèmes de fiabilité, de fuites de courant par le biais d'oxydes minces et d'autres problèmes. Ne pas pouvoir redimensionner les oxydes signifiait également que vous ne pouviez pas redimensionner la tension de fonctionnement d'un processeur, car si vous réduisiez la tension à la baisse sans réduire le diluant pour oxydes, vous perdiez la performance. Ce qui s’est passé, c’est que les gens ont été obligés de maintenir une tension de fonctionnement trop élevée pour respecter leurs engagements en matière de performances, ce qui a eu pour conséquence de maintenir une tension supérieure à une densité de puissance inacceptable. C'était parce que la mise à l'échelle a échoué. La loi de Moore n'est pas pertinente. Il s’agit strictement d’un énoncé économique sur la taille d’une puce et le nombre d’éléments qu’elle contient au fil du temps. C'est une déclaration de coût, pas une déclaration de performance. En allant de l'avant, vous pouvez dire que la loi de Moore est maintenue car vous allez continuer à rendre chaque génération plus petite. Cependant, vous ne pouvez plus faire cette déclaration sans indiquer simultanément les innovations que vous allez introduire pour compenser le fait qu'une réduction supplémentaire de la puce ne garantit pas de meilleures performances. C'est la clé.

Electronic News: Alors, qu'est-ce qui va améliorer les performances à l'avenir?
Meyerson: Innovation. Ce sera le moteur de la performance plutôt que de l’échelle.

Electronic News: Vous parlez de solutions de construction plutôt que de puces. Vos métriques deviennent-elles maintenant le système plutôt que la puce?
Meyerson: En vérité, oui. Dans les appareils plus petits, vous tenterez d’introduire le système sur la puce et, par conséquent, ils ne feront plus qu’un seul et même. Vous aurez donc besoin d’une plus grande diversité de contenu pour rendre cette puce vraiment attrayante en tant que produit. C'est un cas extrême où vous intégrez une capacité de communication, une mise en mémoire tampon, tous les points d'ancrage nécessaires pour permettre le contrôle de l'alimentation, et essentiellement les éléments que vous pourriez trouver dans un système plus grand, tous compressés sur une seule puce. En regardant le niveau supérieur des systèmes, votre réelle différenciation des performances dépend donc de la qualité de votre conception de votre système. Avec une conception holistique, nous décrivons la conception d’une puce prenant en charge la virtualisation. En plus de la mise en œuvre du partitionnement physique des puces (plusieurs cœurs pouvant prendre en charge plusieurs threads de calcul), vous pouvez, au niveau du système, en améliorer un. Vous pouvez concevoir une puce prenant en charge le micropartitionnement par logiciel car la puissance, même la moitié d’un cœur prenant en charge un thread, peut dépasser de loin le besoin de puissance de calcul dans certains cas. Par conséquent, afin de donner au client le meilleur rapport coût / performances possible, nous micropartalisons la capacité d'un thread par 10 manières supplémentaires. Lorsque vous virtualisez l'actif, vous pouvez demander à un hyperviseur d'analyser la charge de travail et de déterminer la puissance de calcul totale requise par cette charge de travail et d'attribuer à peu près un dixième de la moitié de la capacité de la puce à la gérer.

Electronic News: Est-ce fait de manière architecturale ou dynamique?
Meyerson: C'est dynamique. Nous avons la possibilité de réaffecter de manière dynamique les fonctionnalités du système selon les besoins, à la volée, 24 heures sur 24, 7 jours sur 7. Par exemple, vous avez une charge de travail entrante constituée d'une série de transactions. Les transactions se font sur une échelle de temps humaine, ce qui signifie que vous composez des numéros de votre carte de crédit et que cela est vérifié par le système. Vous inscrivez le montant que vous allez payer et c'est vérifié par le système. C'est très lent. Vous voulez pouvoir affecter une fraction infime des capacités du système pour calculer cela. La virtualisation vous permet de le faire, puis de le réintégrer dans un pool qui peut être utilisé selon vos besoins. Lier un processeur entier ou un thread d'un processeur à une simple addition serait un énorme gaspillage de capacités.

Electronic News: Parlons de cela à plusieurs niveaux. Qu'est-ce que tout cela signifie pour la personne moyenne?
Meyerson: Malgré la nette discontinuité dans la trajectoire de la fréquence d'horloge, je ne vois pas de discontinuité dans les performances de l'informatique. Nous nous sommes habitués à profiter chaque année de 60 à 90% des performances au niveau de la clientèle, qui se poursuivront sans interruption, si ce n’est accéléré par une nouvelle orientation vers une conception holistique.

Electronic News: Quel est le prochain goulot d'étranglement? Est-ce que ça va toujours être en dehors de la bande passante?
Meyerson: Si vous pratiquez correctement la conception holistique, vous obtenez un équilibre où aucun élément ne peut devenir à la traîne. Cela ne veut pas dire qu'il n'y a pas plus de travail à faire pour améliorer les performances. Mais cela devient une question de coût / bénéfice de cette amélioration. Vous pouvez ajouter plusieurs chemins parallèles, mais est-ce nécessaire pour l'application particulière que vous avez envisagée ou l'application est-elle suffisamment bien desservie? Différents marchés vont maintenant se comporter différemment. Dans les dispositifs de communication et de communication, où les normes sont définies par le gouvernement et des groupes industriels, il existe un niveau de réalisme réaliste, un limiteur externe définissant ce qui est suffisamment bon. L'autre extrême est qu'il y aura des progrès énormes dans le haut de gamme de l'informatique en raison de l'arrivée d'architectures fondamentalement nouvelles. Blue Gene en est l'exemple ultime. Les gens ont manqué la signification de Blue Gene. Ce n'est pas que c'est le supercalculateur le plus rapide du monde. C'est accessoire. C'est un point de preuve, mais pas la discontinuité. La discontinuité apparaît lorsque vous comparez Blue Gene aux machines sur lesquelles il peut surperformer. Il occupe environ 1 / 100ème de la surface habitable. C'est 1 / 100ème de la taille. C'est environ 1 / 28e de la puissance nécessaire pour de meilleures performances. C'est la discontinuité. C'est un changement fondamental dans la façon dont vous faites le travail.

Electronic News: Cela ne signifie-t - il pas que vous n'êtes plus confiné aux ordinateurs tels que nous les connaissons, principalement une seule boîte?
Meyerson: Absolument. L'espace est ouvert pour explorer de nouveaux paradigmes à la fois en termes de dimensionnement et de dimensionnement en termes d'architectures de système. Le monde de la différenciation est passé de la puissance brute du microprocesseur aux systèmes et à l’intégration. Le microprocesseur reste un élément clé, mais il doit être lié à l’architecture que l’on va prendre en charge au niveau du système. C'est pourquoi vous n'avez pas une taille unique.

Electronic News: Le système est-il également distribué?
Meyerson: Cela peut être distribué ou local, en fonction de vos objectifs. Les systèmes sont devenus immensément plus puissants dans leur propre empreinte. Ils peuvent devenir encore plus puissants en partageant des ressources via la virtualisation avec des sites distants à travers le monde. Nous avons longuement réfléchi à l'informatique autonome, où l'ordinateur s'auto-entretient, s'optimise. Le point clé est que la réalité est là. Nous en sommes maintenant au point où votre machine se protège elle-même. De temps en temps, le message qui apparaît sur votre écran n'est pas qu'un virus a dévoré votre système, mais que votre système a dévoré un virus. C'est une chose incroyablement puissante que nous avons faite. En tant que réseau plus libre, vous êtes évidemment exposé à ceux qui voudraient casser le réseau. La bonne nouvelle est que vous disposez de nombreux logiciels et outils de sécurité pour atténuer la menace. L'avantage, toutefois, est énorme, car vous entrez dans le monde autonome, ce qui vous permet de passer à l'étape suivante.

Electronic News: Et la prochaine étape est?
Meyerson: L'augmentation démesurée et impartiale de l'efficacité de l'entreprise. Parce que vous pouvez accéder à ces fonctionnalités, elles sont devenues entièrement à la demande. La demande n'est pas un mot à la mode. C'est une description du comportement du système idéal, dans lequel vous n'avez pas l'équivalent d'un inventaire. L'inventaire est l'anathème du bilan de l'entreprise. Pourtant, vous ne souffrez pas de l'autre anathème, qui est une grave pénurie de ressources lorsque vous en avez besoin.