Les Spe

ouasse · le 21 mai 2008

Salut,

pour éviter de faire un gros hors sujet sur cet autre topic et parce que la discussion est intéressante, je crée un autre topic.

Je réponds donc au message de baboulette :

Dans 2 ans intel prevoit de sortir au niveau proc des 6/8 cores, et des vrais cores, pas des spe.

dommage ce sont ce type de cores qui sont les plus performants

pendant ce temps, IBM met au point ses supercalculateurs à base de Cell 3 avec 2 PPE et 16 SPE ...

pour être tout à fait exact, il me semble quand même que Intel étudie également l'éventualité d'utiliser des architectures hybrides

Tu plaisantes ???

7 ou 8 spe faces a des dualcores oui, mais face à 8 core, surtout avec un controleur memoire integré, ca m'etonerai .

Je parle en termes de performances de calcul brutes. Un SPE (plus exactement un SPU) du Cell de la PS3 a une puissance crête de 25 GFlops. Les Core 2 à 3 GHz ont des puissances crêtes théoriques de 20 à 25 GFlops par coeur.

Et c'est là qu'il faut faire très attention avec les chiffres donnés, parce que autant le Cell est prévu pour que le code puisse tourner presque en permanence à la puissance crête, les coeurs génériques à la Core 2 ne tournent et ne tourneront jamais au max de la puissance théorique. Tout simplement parce que les Core doivent tout faire, au milieu des calculs il y a des accès mémoire, des entrées/sorties, de la gestion d'interruptions à faire, ce qui prend un temps qui finit par devenir très important.

Or, sur le Cell, les tâches sont réparties :

- Les calculs sont faits par les SPE

- Les entrées/sorties, la gestion des interruptions sont gérées par le PPE

- Les accès mémoire des SPE sont gérés par des unités de gestion mémoire séparées de l'unité de calcul du SPE.

En gros, dans un SPE, il y a :

- Le SPU (le processeur proprement dit)

- Le Local Store (Petite mémoire locale extrêmement rapide, avec temps d'accès similaires à de la mémoire cache)

- Le MFC (Memory Flow Controller), qui effectue les transferts mémoire entre le local store et la RAM centrale.

On le voit donc bien, les SPU n'ont qu'une chose à faire : calculer. Les accès à la RAM sont gérés par les MFC, et toutes les tâches ingrates (le ménage, les courses, la vaisselle) sont faites par le PPE.

De plus IBM n'est meme pas encore capable de faire des procs en 45 nm, alors qu' intel teste deja le 35 ..

détrompe-toi, le Cell à 45 nm existe depuis un moment. IBM est quand même un des leaders du marché des supercalculateurs, ça ferait mal de savoir qu'ils en sont encore aux technologies d'il y a 2 ans ...

Et puis c'est pas demain la veille qu'un particulier aura un supercalculateur, alors que les procs octo-cores, sont prevus pour les machines desktops, et surtout intel prevoit le retour de l'hyperthreading.

Bah franchement, tu sais les plus gros supercalculateurs ne sont que qu'un gros paquet de cartes mères avec 2 ou 4 processeurs à 2 ou 4 (et encore) coeurs... La puissance est plus due au nombre de cartes mères utilisées que du nombre de coeurs dans chaque processeur.

Un processeur de PC actuel éclate n'importe quel Opteron, Xeon, Itanium (hahaha) ou Power5 utilisé dans les supercalculateurs actuels.

Et puis la flexibilité d'un core à part entiere n'est pas comparable à un spe.

Ca, c'est vrai. Un SPE fait du calcul, du calcul, et encore du calcul. Cela dépend de ce que l'on veut faire : veut-on utiliser la machine pour une seule tâche (ou un nombre limité de tâches) et la/les faire à la plus grande vitesse possible, ou veut-on une machine capable d'exécuter un grand nombre de tâches en même temps, style serveur internet ?

Pour les applis multimédia, jeux, musique, modélisation 3D ou autre, il est très clair que des coeurs dédiés au calcul seront bien plus utiles que des coeurs qui font tout, même le café, mais moins vite.

Pour les applis qui font principalement des accès disque, entrées/sorties, services réseau et autres, des coeurs génériques seront plus adaptés.

Tu parles des octo-cores prévus pour l'année prochaine, mais IBM en est déjà au Cell 3 à 16 SPE. Tout simplement parce que les SPE sont plus petits et occupent moins de transistors que des coeurs génériques. Tout ce qui ne sert pas au calcul a été enlevé.

Pour les architectures hybrides d'intel, c'est CPU+GPU dans un meme die (comme AMD).
Le systeme de SPE, n'est pas trop compatible avec l'architecture I386.

C'est très inexact. Effectivement Intel a annoncé récemment vouloir investir dans des procs incluant à la fois des fonctionnalités CPU et GPU, mais cela est plutôt présenté comme du super SSE (ou du "SSE sous stéroïdes"), donc ajouter des extensions très performantes aux CPU, capables d'assurer le travail de rendu graphique que font habituellement les GPU, mais évidemment utilisables aussi pour faire des calculs plus génériques. Il ne s'agit pas d'architectures à coeurs hybrides comme veut faire AMD : des coeurs CPU d'un côté, et des coeurs GPU de l'autre.

Peut-être que je me suis trompé en confondant avec AMD, mais il m'avait semblé entendre qu'Intel envisageait également les architectures hybrides avec une répartition entre coeurs génériques et coeurs de calcul.

De plus il ne faut pas se voiler la face, des consoles avec des technos de 5 ou 6 ans seront bien larguées
face aux pc ..

c'est vrai, mais le ratio performance/prix restera longtemps imbattable ! si tu veux plus de puissance qu'un processeur de PS3, achète une deuxième PS3 !

merci !

baboulette · le 21 mai 2008

Et c'est là qu'il faut faire très attention avec les chiffres donnés, parce que autant le Cell est prévu pour que le code puisse tourner presque en permanence à
la puissance crête, les coeurs génériques à la Core 2 ne tournent et ne tourneront jamais au max de la puissance théorique. Tout simplement parce

que les Core doivent tout faire, au milieu des calculs il y a des accès mémoire, des entrées/sorties, de la gestion d'interruptions à faire,

ce qui prend un temps qui finit par devenir très important.

Or, sur le Cell, les tâches sont réparties :

- Les calculs sont faits par les SPE

- Les entrées/sorties, la gestion des interruptions sont gérées par le PPE

- Les accès mémoire des SPE sont gérés par des unités de gestion mémoire séparées de l'unité de calcul du SPE.

En gros, dans un SPE, il y a :

- Le SPU (le processeur proprement dit)

- Le Local Store (Petite mémoire locale extrêmement rapide, avec temps d'accès similaires à de la mémoire cache)

- Le MFC (Memory Flow Controller), qui effectue les transferts mémoire entre le local store et la RAM centrale.

On le voit donc bien, les SPU n'ont qu'une chose à faire : calculer. Les accès à la RAM sont gérés par les MFC, et toutes les tâches ingrates (le ménage, les courses, la vaisselle) sont faites par le PPE.

Cela est vrai dans un certains types de calcul, mais les spe sont specialisés dans certains de ces calculs, Sortie de ce domaine les SPE ne cassent pas des briques.

En fait il s'agit bien la d'un processeur de calculateur et pas de console de jeux.

Par exemple il me semble bien que les supers calculateurs les plus puissants de la planete sont equipés de procs tout minables style sharp @ 600 mhz.

Et non de procs IBM.

Le proc multicore d'intel,n'est pas basé sur l'architecture core, et est bien plus puissant qu'un cell puisqu'il atteint le teraflops,en fait il integre 80 cores styles spe.

ICI

détrompe-toi, le Cell à 45 nm existe depuis un moment. IBM est quand même un des leaders du marché des supercalculateurs, ça ferait mal de savoir qu'ils en sont encore aux technologies d'il y a 2 ans ...

Les cells 45 nm n'existent pas encore, et qd ils sortiront intel fera du 32nm.

un exemple ICI

D'ailleurs l'abandon d'apple de procs MOTOROLA/IBM, et en grande partie à cause de cela, le retard d'IBM en matiere de gravure, ce qui valait un retard des PPC en matiere de consomations, montées en frequences.

Bah franchement, tu sais les plus gros supercalculateurs ne sont que qu'un gros paquet de cartes mères avec 2 ou 4 processeurs à 2 ou 4 (et encore) coeurs... La puissance est plus due au nombre de cartes mères utilisées que du nombre de coeurs dans chaque processeur.
Un processeur de PC actuel éclate n'importe quel Opteron, Xeon, Itanium (hahaha) ou Power5 utilisé dans les supercalculateurs actuels.

Lol, Xeon ,itanium ca m'etonnerai puisque ce sont des versions serveurs des core2, donc plus puissants,avec bcp plus de caches.

Ca, c'est vrai. Un SPE fait du calcul, du calcul, et encore du calcul. Cela dépend de ce que l'on veut faire : veut-on utiliser la machine pour une seule tâche (ou un nombre limité de tâches) et la/les faire à la plus grande vitesse possible, ou veut-on une machine capable d'exécuter un grand nombre de tâches en même temps, style serveur internet ?
Pour les applis multimédia, jeux, musique, modélisation 3D ou autre, il est très clair que des coeurs dédiés au calcul seront bien plus utiles que des coeurs qui font tout, même le café, mais moins vite.

Pour les applis qui font principalement des accès disque, entrées/sorties, services réseau et autres, des coeurs génériques seront plus adaptés.

Tu parles des octo-cores prévus pour l'année prochaine, mais IBM en est déjà au Cell 3 à 16 SPE. Tout simplement parce que les SPE sont plus petits et occupent moins de transistors que des coeurs génériques. Tout ce qui ne sert pas au calcul a été enlevé.

Bah oui ces procs ne seront pas que du simple die-shrink, ils auront une architecture massivement hyperthreadée, avec 4 instructions par cycle, et par core ..

Controleur memoire integré.

Gestion de la ram sur 3 canaux.

C'est très inexact. Effectivement Intel a annoncé récemment vouloir investir dans des procs incluant à la fois des fonctionnalités CPU et GPU, mais cela est plutôt présenté comme du super SSE (ou du "SSE sous stéroïdes"), donc ajouter des extensions très performantes aux CPU, capables d'assurer le travail de rendu graphique que font habituellement les GPU, mais évidemment utilisables aussi pour faire des calculs plus génériques. Il ne s'agit pas d'architectures à coeurs hybrides comme veut faire AMD : des coeurs CPU d'un côté, et des coeurs GPU de l'autre.
Peut-être que je me suis trompé en confondant avec AMD, mais il m'avait semblé entendre qu'Intel envisageait également les architectures hybrides avec une répartition entre coeurs génériques et coeurs de calcul.

Tu n'as pas compris ma pensée, je disais juste que l'architecture i386, est la pour maintenir la compatibilitée avec les vieux progs, d'ou les SPE non adaptés.

Bien sur tu peux faire une emulation comme apple, mais à mon avis c'est tellement lent que c'est pas envisageable.

Et en parlant de SSE, justement de nouvelles instructions sur 256 bits feront leurs apparition .

c'est vrai, mais le ratio performance/prix restera longtemps imbattable ! si tu veux plus de puissance qu'un processeur de PS3, achète une deuxième PS3 !

C'est pas faux, mais mon résonnement est logique, ca évolue tellement vite, et surtout faut pas que prendre en compte la sortie de la PS3 pour evaluer l'ecart de technologie, mais bien le debut de la gestation du cell(meme si elle a subit des ameliorations entre temps)

merci !

De rien ca fait plaisir de donner son avis sans se faire insulter.

Meme si on est pas d'accord sur plein de points, c'est bien de voir d'autres points de vue.

Le cell est une belle bette ca c'est clair, mais intel n'est pas Numero1 pour rien .. ;-)

Modifié le 21 mai 2008 par baboulette

erwan2004 · le 21 mai 2008

Le CELL est puissant SI tu optimises le code UNIQUEMENT pour lui .

En dehors de ça si tu compare la vitesse exécution d'un code générique I386 sur un CORE2 et PPC sur PS3, y a pas photo .

Donc au prix d'une grosse réécriture et optimisation du code, on peut tirer partie des SPE. Là où sur PC, c'est déjà pas mal si on optimise le code pour les multi-proc et avec des instructions SSE2.

ouasse · le 21 mai 2008

les spe sont specialisés dans certains de ces calculs, Sortie de ce domaine les SPE ne cassent pas des briques.
En fait il s'agit bien la d'un processeur de calculateur et pas de console de jeux.

De quels types de calculs parles-tu alors ? Et c'est quoi pour toi un processeur de console ?

Pour exemple il me semble bien que les super calculateur les plus puissants de la planette sont equipé de procs tout minable style sharp @ 600 mhz.
Et non de procs IBM.

non, ce sont des IBM. Sur le site du classement mondial des supercalculateurs, les deux premiers sont des Blue Gene d'IBM. Le Blue Gene/L est une architecture qui ressemble au Cell avec un peu plus de coeurs génériques, et le Blue Gene/P ressemble plus à une architecture type Power5. D'ailleurs le classement date de novembre 2007, et sur le prochain classement qui ne devrait pas tarder à paraître on devrait trouver en 3eme position un autre Blue Gene/P, acquis par l'IDRIS/CNRS d'Orsay en janvier.

Le proc multicore d'intel,n'est pas basé sur l'architecture core, et est bien plus puissant qu'un cell puisqu'il atteint le teraflops,en fait il integre 80 cores styles spe.
ICI

. C'est ce que je disais quand je parlais du fait qu'Intel expérimente dans les architectures hybrides. Cela dit, le processeur dont parle l'article est hautement expérimental, et ce type de processeur massivement parallèle ne devrait voir le jour que dans les 4 ou 5 prochaines années. Mais cela donne une bonne idée de ce à quoi vont ressembler les futurs processeurs.

Les cells 45 nm n'existent pas encore, et qd ils sortiront intel fera du 32nm.

La production est en route ... Et sur le Cell IBM justement avait résolu le problème du grand nombre de transistors différemment de la manière d'Intel, en réduisant tout ce qui n'était pas dédié au calcul, plutôt qu'en miniaturisant chaque transistor. Mais l'un n'empêche pas l'autre évidemment.

D'ailleurs l'abandon d'apple de procs MOTOROLA/IBM, et en grande partie à cause de cela, le retard d'IBM en matiere de gravure, ce qui valait un retard des PPC en matiere de consomations, montées en frequences.

Disons qu'au moment du passage d'Apple aux processeurs Intel, cela faisait un moment que les powerPC d'IBM n'arrivaient pas à rattraper leur retard sur les procs Intel. Depuis IBM a fait son chemin en proposant autre chose. Cela dit, pour des ordinateurs personnels dédiés au multimédia, aux applications graphiques et aux jeux, je trouve dommage qu'Apple ait fait ce choix. Les Mac ne sont plus que des PC haut de gamme maintenant, en concurrence directe avec les machines des autres constructeurs.

Un processeur de PC actuel éclate n'importe quel Opteron, Xeon, Itanium (hahaha) ou Power5 utilisé dans les supercalculateurs actuels.

Lol, Xeon ,itanium ca m'etonnerai puisque ce sont des versions serveurs des core2, donc plus puissants,avec bcp plus de caches.

Avec plus de caches, certes, mais surtout moins de coeurs. Des supercalculateurs à base d'Intel ou AMD qui seraient mis en production aujourd'hui auraient des processeurs forcément moins bons que ceux qui sortent en ce moment, ne serait-ce à cause des délais de conception, de mise en place et d'expérimentation nécessaires, qui dépassent largement 12 voire 18 mois.

Donc ce type de machine a une architecture forcément déjà dépassée, et les nouvelles machines mises en service sont équipés des processeurs équivalent au haut de gamme d'il y a plus d'un an.

Et y'a pas photo, les Xeon éclatent depuis longtemps les Itanium, qui ont une puissance crête encore plus difficile à exploiter que les i386.

ouasse · le 21 mai 2008

la suite de ma réponse, parce que le forum limite le nombre de quotes (?!?)

Bah oui c'est procs ne seront pas que du simple dieshrink, ils auront une architecture massivement hyperthreadée, avec 4 instructions par cycle, et par core ..
Controleur memoire integré.

Gestion de la ram sur 3 caneaux.

Quelques points là dessus : l'hyperthreading ne permet en aucun cas d'atteindre les performances maximales des coeurs. L'exécution parallèle des instructions, cela existe déjà, et cela nécessite un nombre impressionnant de transistors par rapport au gain en puissance. L'hyperthreading permet effectivement de réduire les latences dues aux problèmes de défauts de cache liés aux accès mémoire, mais pour l'exploiter il faut programmer comme si on avait le double voir le quadruple du nombre réels de coeurs qu'on possède. Cela a aussi des coûts en termes algorithmiques et en complexité de programmation. Ces coûts existent aussi quand on programme sur Cell, mais le gain d'un code optimisé pour Cell est bien plus important que pour un code utilisant l'hyperthreading.

Pour faire un parallèle, tu parles d'exécuter 4 instructions en un cycle, les SPE permettent d'effectuer une seule opération sur des vecteurs de 4 éléments 32 bits en un seul cycle. Cela revient au même, sauf que cela coûte énormément moins cher en termes de nombre de transistors. Et comme la plupart des calculs multimédia sont facilement parallélisables, c'est tout à fait adapté.

Donc si pour le même nombre de transistors j'ai le choix entre un coeur générique hyperthreadé difficile à programmer et deux coeurs simples permettant d'effectuer effectivement deux fois plus de calculs que ce que pourrait théoriquement (c'est à dire jamais) faire le coeur hyperthreadé, je choisis la seconde solution.

Tu n'as pas compris m'a pensé, je disais juste que l'architecture i386, est la pour maintenir la compatibilitée avec les vieux progs, d'ou les SPE non adaptés.
Bien sur tu peux faire une emulation comme apple, mais à mon avis c'est tellement lent que c'est pas envisageable.

Intel, avec l'Itanium avait déjà rompu la compatibilité. Egalement avec leur architecture expérimentale à 80 coeurs. Et alors ? Si Windows est volontairement figé sur une architecture unique, ce n'est pas le cas des autres systèmes d'exploitation.

Et en parlant de SSE, justement de nouvelles instructions sur 256 bits feront leurs apparition .

D'ailleurs il faut noter que les premiers processeurs SSE font suite au bide suscité par le jeu d'instructions MMX et la mise à disposition des unités vectorielles Altivec des PowerPC d'IBM. Comme quoi, les architectures vectorielles des SPE ne sont pas si novatrices que ça

mais mon resonnement logique, ca évolue tellement vite, et surtout faut pas que prendre en compte la sortie de la PS3 pour evaluer l'ecart de technologie, mais bien le debut de la gestation du cell(meme si elle a subit des ameliorations entre temps)

Entièrement d'accord

Meme si on est pas d'accord sur plein de points, c'est bien de voir d'autres points de vue.
Le cell est une belle bette ca c'est clair, mais intel n'est pas Numero1 pour rien .. ;-)

Je ne suis pas on pro-IBM ni un anti-Intel, mais c'est juste que dans les périodes précédentes Intel ne faisait pas grand chose, et ne conservait qu'une faible avance par rapport à ses concurrents, alors qu'ils ont été leaders depuis plus d'une dizaine d'années. Et certains de leurs choix n'ont pas été très judicieux, genre l'Itanium qui ne calculait qu'en nombres flottants (argh !) et son successeur l'Itanium 2 un peu plus utilisable mais avec un rapport performance/puissance électrique consommée catastrophique. IBM et AMD avaient tenu compte depuis longtemps du problème de consommation d'énergie, et Intel n'a fait que suivre le mouvement. Pareil avec le jeu d'instructions 64 bits, qui a été lancé par AMD avec l'Athlon64 et repris plus tard par Intel.

Maintenant, il semble qu'Intel se bouge un peu plus, donc cela devient bien plus intéressant !

baboulette · le 21 mai 2008

la suite de ma réponse, parce que le forum limite le nombre de quotes (?!?)
Quelques points là dessus : l'hyperthreading ne permet en aucun cas d'atteindre les performances maximales des coeurs. L'exécution parallèle des instructions, cela existe déjà, et cela nécessite un nombre impressionnant de transistors par rapport au gain en puissance. L'hyperthreading permet effectivement de réduire les latences dues aux problèmes de défauts de cache liés aux accès mémoire, mais pour l'exploiter il faut programmer comme si on avait le double voir le quadruple du nombre réels de coeurs qu'on possède. Cela a aussi des coûts en termes algorithmiques et en complexité de programmation. Ces coûts existent aussi quand on programme sur Cell, mais le gain d'un code optimisé pour Cell est bien plus important que pour un code utilisant l'hyperthreading.

Pour faire un parallèle, tu parles d'exécuter 4 instructions en un cycle, les SPE permettent d'effectuer une seule opération sur des vecteurs de 4 éléments 32 bits en un seul cycle. Cela revient au même, sauf que cela coûte énormément moins cher en termes de nombre de transistors. Et comme la plupart des calculs multimédia sont facilement parallélisables, c'est tout à fait adapté.

Donc si pour le même nombre de transistors j'ai le choix entre un coeur générique hyperthreadé difficile à programmer et deux coeurs simples permettant d'effectuer effectivement deux fois plus de calculs que ce que pourrait théoriquement (c'est à dire jamais) faire le coeur hyperthreadé, je choisis la seconde solution.

Oui je suis d'accord, mais la ou le cell sera specialisé dans des calculs de type supercalculateur, alors que ceux d'intel peuvent tout faire, et trés vite ..

Ce qui prend bcp de place en terme de transistors c'est la memoire cache.

Donc le proc en lui meme ne contient pas enormement de transistors, et son systeme de 8 coeurs hyperthreadés est tres puissant, surtout que la c'est pas une architecture P4, mais core2..

Si une appli est developpé pour tirer partie du multi-proc comme 3DS par exemple, tu peux rajouter des core à volonté (enfin je crois), le prog en tirera partie, comme c'est le cas avec les dual core et quad core.

Et comme c'est le cas avec les P4 hyperthreading, qui meme si ils n'ont pas les perfs d'un dual core s'en rapprochent fortement.

Donc je pense que la prochaine evolution de l'hyperthreading sera tout sauf un gadget, comme l'actuel.

De plus le marché principal d'intel est les pc familiaux, donc ils ne lacheront pas de sitot la compatibilité i386 .

Et faudrai tout réécrire pour une nouvelle archetecture, ce qui industriellement parlant serai un suicide.

Pour les marchés comme les serveurs pas de soucis.

Intel, avec l'Itanium avait déjà rompu la compatibilité. Egalement avec leur architecture expérimentale à 80 coeurs. Et alors ? Si Windows est volontairement figé sur une architecture unique, ce n'est pas le cas des autres systèmes d'exploitation.

Oui l'itanium à la base etait prevu pour ca, mais finalement il reprend la meme architecture que les core, avec les dernieres technos d'intel pour les serveurs .

Les itaniums sont les procs pour supercalculateurs les plus puissant, mais leurs consomations abysales de 130 watts/procs, ne permet pas de les mettres dans ce type de machines.

Je ne suis pas on pro-IBM ni un anti-Intel, mais c'est juste que dans les périodes précédentes Intel ne faisait pas grand chose, et ne conservait qu'une faible avance par rapport à ses concurrents, alors qu'ils ont été leaders depuis plus d'une dizaine d'années. Et certains de leurs choix n'ont pas été très judicieux, genre l'Itanium qui ne calculait qu'en nombres flottants (argh !) et son successeur l'Itanium 2 un peu plus utilisable mais avec un rapport performance/puissance électrique consommée catastrophique. IBM et AMD avaient tenu compte depuis longtemps du problème de consommation d'énergie, et Intel n'a fait que suivre le mouvement. Pareil avec le jeu d'instructions 64 bits, qui a été lancé par AMD avec l'Athlon64 et repris plus tard par Intel.
Maintenant, il semble qu'Intel se bouge un peu plus, donc cela devient bien plus intéressant !

Moi non plus, je suis pas pro quoi que soit, IBM n'est pas un petit joueur, mais sur les procs intel fait fort, tres fort ces temps ci ..

Comme les PPC en leur temps.

Surtout qu'intel est plus qu'a la pointe en matiere de chipset pour ces procs de Pc de bureau.

Oui, IBM est tete mais il me semble que les procs ne sont pas des foudre de guerres !!

Les procs itanium(individuellemnt je precise) attomisent les procs de bluegen, mais sont des gouffre en conso courant, deja qd on voit la conso de blue gen ,on comprend pk intel ne perce pas.

Cependant avec des consos, proche de 60 watts voire 100 pour un 8 cores c'est exeptionel .

Mais je te confirme que l'itanium est plus puissant qu'un XEON ;-) ,et son seul rival niveau puissance est le PPC d'IBM ..

Pour le 45 nm, faut rappeller qu'intel propose deja des proc avec cette finesse en serie, donc intel à bcp d'avance en ce domaine sur IBM ..

Pour les evolutions, c'est pareil pour intel, l'architecture core est basé sur la vielle P6 (pentium pro) qui date de 1995 ..

Modifié le 26 mai 2008 par baboulette

raitoN · le 21 mai 2008

il me semble que toshiba s'occupe de la production du Cell en 45nm non ??

baboulette · le 22 mai 2008

il me semble que toshiba s'occupe de la production du Cell en 45nm non ??

Oui, mais ces cells ne sont pas encore en productions de masse ..

Ils devraient l'etre cette année.

erwan2004 · le 22 mai 2008

De toute façon, comparer un CORE2 et un Cell, c'est stupide.

Le Core2 est un proc. grand publique alors que le Cell, lui est destiné pour pas grand chose de plus que la PS3.

D'ailleur je me demande dans sur quel créneau, le consortium veut vrendre ce produit ?

Pas celui des appareils mobile ni de l'informatique grand publique.

Il reste les serveurs et les calculateurs semiPRO/PRO mais vu la forte concurrence et la jeunesse de son architecture, je doute que le Cell arrive à s'implanter sur ce créneau.

bien sûr, la PS3 fera le bonheur de quelques universitaires, mais pour les entreprises je pense pas .

baboulette · le 23 mai 2008

De toute façon, comparer un CORE2 et un Cell, c'est stupide.
Le Core2 est un proc. grand publique alors que le Cell, lui est destiné pour pas grand chose de plus que la PS3.

D'ailleur je me demande dans sur quel créneau, le consortium veut vrendre ce produit ?

Pas celui des appareils mobile ni de l'informatique grand publique.

Il reste les serveurs et les calculateurs semiPRO/PRO mais vu la forte concurrence et la jeunesse de son architecture, je doute que le Cell arrive à s'implanter sur ce créneau.

bien sûr, la PS3 fera le bonheur de quelques universitaires, mais pour les entreprises je pense pas .

C'est pas faux, mais en fait on compare le cell aux prochain multicores d'intel, c'est different.

Et puis le debat part du fait de se demander si la PS3 sera dans le coup par rapport à un pc dans 2 ans ..

Cependant dire q'un proc 4 cores ou plus, n'a rien a voir avec les supercalculateurs c'est un peu faux.

Le probleme de proc pour pc ne sont pas leurs puissance car, ils le sont bien plus que ceux des supercalculateurs (pour les procs d'aujourd'hui), mais leur consomation, qui meme si pour un particulier n'est pas enorme, elle devient problematique quand il y a plusieurs miliers de procs.

D'ailleurs les PPC de ces machines ne depassent pas 800 mhz il me semble,ce qui sera le cas du bluegene peta flops, avec presque 300 000 proc @850 mhz.

Modifié le 23 mai 2008 par baboulette

Fireball · le 23 mai 2008

joli débat messieurs ! je vais me coucher un peu moins con ce soir !

Modifié le 23 mai 2008 par Fireball

baboulette · le 23 mai 2008

joli débat messieurs ! je vais me coucher un peu moins con ce soir !

Lol, tu es courageux d'avoir tout lu :marteau:

Maxipop · le 24 mai 2008

lol le debat, c'est a celui qu'aura bouffé le plus de marketing de toute façon la ps3 c'est comme la ps2 un jeu sur 100 va vraiment tiré parti de l'architecture les autres ne peuvent le faire a cause du multi portage, mm nuxnux ps3 ne casse pas des briques , donc quel interet d'avoir un monstre technologique avec des jeux sous developpé ou des applocations interesante

erwan2004 · le 24 mai 2008

j'aurais répondu: indépendance que ce soit au niveau de la fabrication ou de la conception .

Mais vu que Sony a fermé son usine de de production de CELL et sous traite à Toshiba, ca tien plus .

Je pense que à la conception de la PS3, Sony a sous estimer le marcher du JV, suite aux trés bon résultats de la PS2 .

Quand t'il a vu que le bon accueil des joueurs à la console MS (par rapport à la Xbox1).

Il s'est vite rendu compte que ses estimations ( 50% de part de marcher) étaient foireuses.

Donc il a sortie une PS3 finit à l'arrache .

raydenxxx · le 24 mai 2008

Donc il a sortie une PS3 finit à l'arrache .

Suis pas sur que ce soit Sony qui ait sorti une console fini à l'arrache comme tu dis.

Je la trouve vraiment aboutie comparée au reste.

Après oui, les dev n'ont pour l'instant pas les capacités ou toutes les cartes/temps/motivations/possibilités pour utiliser tout ça... mais je pense que cela viendra avec le temps (excepté bien sur les multi qui eux resteront au même niveau sur les deux supports).

Ce n'est pas que la console a été fini a l'arrache je pense, mais un SDK toujours aussi compliqué

++

pthichat · le 24 mai 2008

Salut tout le monde !!!

Intéressant ce thread

Si on se projette dans l'avenir et on se dit que la bataille du multicoeur multithreadé est en route depuis un petit moment, les librairies et les SDK pour faire du massivement // sont encore loin d'être ancrées dans les habitudes de développement hormis dans les calculs spécifiques.

Chez intel il y a : http://www.threadingbuildingblocks.org/ qui est une lib qui permet du multithread ainsi que les Intel’s Performance Analysis Tools. Si ça intéresse du monde il ya des choses intéressantes sur http://softwarecommunity.intel.com/

Chez IBM il y a : http://www.ibm.com/developerworks/power/li...pa-cell/#N101AF qui permet aussi de faire du multithread & co

Au final le grand vainqueur sera celui qui aura le meilleur SDK qui permet de faire du multi // sans se soucier de la gestion de chaque composant. Et je pense que Intel a une longueur d'avance avec sa librairie open source.

Les algos de prédicat de branchement sont arrivé au maximum de ce qui est faisable. La ps3 a un avantage encas de cache missed c'est que lorsqu'il y a rupture du pipe ou un mauvais branchement ça ne coute qu'un seul cycle + le rechargement du pipe, alors que sur du multithread / multi core ça peut couter le nombre de coeur x la taille du pipe + rechargement du pipe.

Puis au final ce qui est important d'imaginer une nouvelle gestion et utilistion des coeurs.

Si on prend du jeu video on peut découper le jeu video en X parties :

1 coeur qui gere l'OS

1 coeur qui gere l'IA

1 coeur qui gere les decors

1 coeur qui gere le moteur

.....

Si on prend une application informatique :

1 coeur qui gere l'OS

1 coeur qui gere la partie data

1 coeur qui gere la partie traitement

Seul l'avenir nous dira vers quoi on se dirigera. Sous Linux on pourrait imaginer un coeur pour le serveur X, 1 coeur pour l'OS et puis le reste pour le traitement.

Pour l'instant il faut attendre les outils

@++

erwan2004 · le 25 mai 2008

Il serait plus judicieux de parler en terme de "tache" et non de "cœur".

Le gros problème du Cell, c'est que sa puissance ce trouve dans ses SPE et qui faut répartir les taches "à la main" en plus d'un programation qui n'est pas des plus facile.

Là ou sous windows, c'est le noyau qui s'encharge .

ouasse · le 26 mai 2008

Il serait plus judicieux de parler en terme de "tache" et non de "cœur".
Le gros problème du Cell, c'est que sa puissance ce trouve dans ses SPE et qui faut répartir les taches "à la main" en plus d'un programation qui n'est pas des plus facile.

Là ou sous windows, c'est le noyau qui s'encharge .

Je ne comprends pas ce que tu entends par répartir les tâches "à la main". L'exécution de code SPE à partir d'un thread PPE consiste à initialiser un contexte SPE à partir du code à exécuter, puis à le lancer. C'est le noyau qui décide quel SPE va exécuter quel contexte, et peut même faire de l'ordonnancement préemptif entre contextes SPE si plus de contextes sont en cours d'éxécution par rapport au nombre de SPE.

C'est grosso modo le même principe que des threads sur un multi core, si tu lances autant de threads que de cores le noyau va se débrouiller pour répartir l'exécution de chaque thread sur les différents cores.

Bon sinon, il y a un article super intéressant sur Linuxfr qui parle des prochaines machines qui vont figurer au top500 de ce mois de mai, notamment le Roadrunner qui devrait être la première machine à passer la barrière du pétaflops (1 millions de milliards d'opérations par seconde). Et cette machine est constituée principalement de ... processeurs Cell ! Plus exactement elle est équipée de 6912 Opteron double coeur et 12960 Cell 8i (aussi appelée Cell 2, qui est une version (très) optimisée du Cell que l'on trouve dans les PS3 et autres Cell Blade IBM).

Ce qui est clair c'est que le choc "culturel" consistant à passer d'une archi homogène à des archis hétérogènes est en train de s'estomper, il est de plus en plus acquis que le futur sera hétérogène.

baboulette · le 27 mai 2008

Les algos de prédicat de branchement sont arrivé au maximum de ce qui est faisable. La ps3 a un avantage encas de cache missed c'est que lorsqu'il y a rupture du pipe ou un mauvais branchement ça ne coute qu'un seul cycle + le rechargement du pipe, alors que sur du multithread / multi core ça peut couter le nombre de coeur x la taille du pipe + rechargement du pipe.

La à mon avis tu prends pour exemple les p4, ou les erreurs de predictions coutaient cher.

Avec l'architecture core2, il me semble que la prédiction est de 98%, donc les erreurs sont quasi inexistantes, et consomme peu de cycle en cas d'erreurs.

Il ne faut pas oublié que le risc a effectivement certains avantage mais aussi des inconvegnients, celle de ne pas etre adapté aux languages evolués qui nécéssite un compilateur plus complexe.

erwan2004 · le 27 mai 2008

Ouasse:

On en revient au même, c'est une machine X86-64 contre une machine Cell.

Avec les mêmes avantages et inconvéniants cité plus haut .

Juste en passant, d'aprés les stats de Folding une PS3 fait 30Gflops.

Edit:

A la vitesse ou on vas, AMD nous sortira des calculateur avec des puces 3D ATI ...

Modifié le 27 mai 2008 par erwan2004

baboulette · le 27 mai 2008

Ouasse:
On en revient au même, c'est une machine X86-64 contre une machine Cell.

Avec les mêmes avantages et inconvéniants cité plus haut .

Juste en passant, d'aprés les stats de Folding une PS3 fait 30Gflops.

Edit:

A la vitesse ou on vas, AMD nous sortira des calculateur avec des puces 3D ATI ...

C'est pas faux car un sli de radeon (et pas les plus recentes) faisait deja du tera-flops ..

ouasse · le 27 mai 2008

Ouasse:
On en revient au même, c'est une machine X86-64 contre une machine Cell.

c'est plus compliqué, c'est une machine x86_64 contre une machine hybride x86_64/Cell

Et sur le Roadrunner d'après l'article "Sur les plus de 1,6 pétaflops il y en a 1,3 qui viennent des Cell et seulement 0,4 qui viennent des Opterons", donc effectivement y'a du vrai dans ce que tu dis

Juste en passant, d'aprés les stats de Folding une PS3 fait 30Gflops.

attention il faut faire gaffe quand on parle d'applications précises, comme folding@Home par exemple. Les algorithmes utilisés peuvent ne pas forcément être les plus facilement implémentables sur PS3 par exemple. C'est aussi le cas sur les x86. On parle toujours en termes de puissance "crête" alors qu'effectivement la puissance réelle tombe dès qu'il s'agit d'applications précises.

Pour le cas spécifique de Folding@Home, je pense que la différence entre la puissance effective et la puissance crête tient principalement au fait que le Cell de la PS3 est assez mauvais pour les calculs flottants en double précision (variables 64 bits). Il est plus optimisé pour les calculs en simple précision (32 bits). En simple, la puissance crête est de 150 Gflops pour 6 SPE, et en double, elle tombe à environ 15 Gflops. Je pense que le chiffre de 30 Gflops vient du fait que des calculs double précision sont effectués à l'aide d'opérations en simple précision, ce qui curieusement donne de meilleures perfs que si on programmait directement en double précision. C'est en tout cas ce que fait la librairie BLAS pour Cell du SDK d'IBM (librairie de base pour les calculs matriciels, il y en a pour toutes les architectures, comme par exemple l'environnement CUDA pour cartes graphiques NVIDIA, ou des versions SSE pour les x86).

Je précise encore que dans le Roadrunner, les Cell utilisés ne sont pas les mêmes que dans la PS3, il s'agit des PowerXCell 8i (ou Cell 2) qui font du 100 Gflops en double précision.

A la vitesse ou on vas, AMD nous sortira des calculateur avec des puces 3D ATI ...

certainement, mais pas avant deux ans, temps nécessaire pour mettre au point les gros monstres comme ceux qui voient le jour aujourd'hui

sephirothff · le 9 juin 2008

ouasse tu peux me donner une explication pour ceci ==>

IBM Cell BE (3,2 GHz)
204.8 GFlops/SPU(32 bit)

14.6 GFlops/SPU(64 bit)

Modifié le 9 juin 2008 par sephirothff

ouasse · le 9 juin 2008

Les perfs que tu donnes ne sont pas par SPU, mais pour l'ensemble du processeur (tes chiffres concernent le Cell premier du nom avec 8 SPE, alors que sur PS3 seuls 6 sont utilisables).

en fait le Cell a été conçu dans l'idée d'utiliser le moins de transistors possibles pour tout ce qui sert à autre chose qu'au calcul. J'ai déjà parlé d'absence d'exécution des instructions dans le désordre comme peuvent le faire les procs classiques, des mémoires caches limitées, etc. Le Cell de la PS3 est le premier sorti, et il se trouve que sur cette version les concepteurs du Cell ont vraiment limité les performances des calculs en double précision (64 bits), toujours dans un souci d'économie de transistors. Cela peut s'expliquer par le fait que Sony, l'un des concepteurs avait besoin d'un processeur rapide pour les calculs liés aux consoles de jeu, et les calculs 32 bits (ou simple précision) sont largement suffisants dans la plupart des cas, d'où l'économie faite sur les calculs 64 bits qui du coup sont relativement inefficaces.

Il y a des Cell "style PS3" dans les Cell blade d'IBM, avec 8 SPE utilisables au lieu de 6, avec les mêmes contraintes sur les calculs 64 bits.

D'autres versions du Cell sont sorties (Le PowerXCell 8i, ou Cell 2, utilisé dans le Roadrunner) ou sont sur le point de l'être (le Cell 3), dans lesquelles les performances en double précision sont très améliorées (100 GFlops sur le PowerXCell 8i, contre toujours 200 en simple précision).

Modifié le 9 juin 2008 par ouasse

baboulette · le 11 juin 2008

Mais bon faut qd meme se mefier des chiffres, car si on les prends tels quels, les nouvelles radeon explosent tout ce qui ce fait actuellement, puisque d'apres AMD, elles dégagent 1,2 tera flops avec 1 seul GPU, qui tourne qd meme à 750 mhz.

PS: Je voudrai aussi corriger quelque chose, la fameuse loi de moore que certains aiment sortir, concerne le nombre de transistors qui double tout les 18 mois et pas la puissance des procs.. ^_^

Modifié le 11 juin 2008 par baboulette

Connexion

Les Spe

Messages recommandés

ouasse

baboulette

erwan2004

ouasse

ouasse

baboulette

raitoN

baboulette

erwan2004

baboulette

Fireball

baboulette

Maxipop

erwan2004

raydenxxx

pthichat

erwan2004

ouasse

baboulette

erwan2004

baboulette

ouasse

sephirothff

ouasse

baboulette

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Naviguer

Activité