Liberación de un torrent de código abierto en CPU y motores de inteligencia artificial

Cuando se combinan las fuerzas del código abierto y la amplia y profunda experiencia en semiconductores del legendario arquitecto de chips Jim Keller, algo interesante seguramente sucederá. Y ese es precisamente el plan con la startup de IA y ahora con el fabricante de CPU Tenstorrent.

Tenstorrent fue fundado en 2016 por Ljubisa Bajic, Milos Trajkovic e Ivan Hamer y tiene su sede en Toronto. Keller fue un inversor ángel y asesor de la empresa desde el principio, y fue contratado como director de tecnología en enero de 2021 después de un período en el negocio de servidores de Intel, donde limpió algunos problemas arquitectónicos y de procesos como lo hizo bajo un Trabajo anterior en AMD. En enero de este año, Keller fue elegido para reemplazar a Bajic como director ejecutivo, y la compañía anuncia hoy que aportará entre 120 y 150 millones de dólares en su financiación Serie D, con Hyundai Motor Group y Samsung Catalyst Fund a la cabeza. la ronda y con los inversores anteriores Fidelity Ventures, Eclipse Ventures, Epiq Capital, Maverick Capital y otros aportando dinero. Hasta la fecha, esa será la inversión de más de 384,5 millones de dólares y probablemente aumentará su valoración por encima de los 1.400 millones de dólares.

Todo ese dinero es interesante y necesario para pagar la importante cantidad de trabajo de ingeniería que el equipo de Tenstorrent necesita realizar para crear una línea de procesadores de servidor RISC-V y aceleradores de IA de calidad comercial que los igualen y, lo que es más importante, tomen sobre la hegemonía de la GPU Nvidia en el entrenamiento de IA. Se necesitará dinero –y tal vez mucho más dinero, o tal vez no– para ayudar a las empresas a reducir los costos de la capacitación en IA. Lo que sí sabemos es que Keller cree que tiene el equipo perfecto para hacerlo, y conversamos con él sobre la misión Tenstorrent, una que estábamos esperando con ansias.

Profundizaremos en las arquitecturas del motor de inteligencia artificial y CPU de Tenstorent en un seguimiento.

Timothy Prickett Morgan: Vayamos directamente a la escena de la persecución. Me moría por hacerte esta pregunta porque tu respuesta importa. ¿Por qué diablos necesitamos otro acelerador de IA?

Jim Keller:Bueno, el mundo aborrece el monopolio.

TPM: Sí, pero ya tenemos muchas empresas diferentes en el juego. Nada de esto ha funcionado a mi satisfacción. No es que los chicos de Groq tomaron la idea de TPU, la comercializaron y listo. No es como MapReduce y Yahoo Hadoop. Nirvana Systems y Habana Labs tenían lo que creo que eran buenas arquitecturas, e Intel no ha tenido gran éxito con ninguna de ellas. Graphcore y SambaNova son razonables, Cerebras tiene escala de oblea y eso es interesante. El esperanto también está ahí con RISC-V. Y todo el mundo, hasta donde puedo ver, tiene un problema de mil millones de dólares para pasar al siguiente nivel. Sé que RISC-V es importante, que es el Linux del hardware y llevábamos mucho tiempo esperando ese momento. Usar RISC-V para construir un acelerador es la parte fácil de tomar una decisión arquitectónica.

¿Qué es lo que Tenstorrent puede hacer que sea diferente y mejor? No espero que hoy cuentes todos los detalles arquitectónicos, pero ¿qué te motiva y por qué?

Jim Keller: Hay un montón de cosas. En primer lugar, siempre que hay un gran ciclo de publicidad, más personas obtienen inversiones de las que la industria puede soportar adecuadamente. Ljubisa Bajic, una de las cofundadoras de Tenstorrent, y yo tuvimos largas charlas porque SambaNova y Cerebras tenían valoraciones muy altas. Entonces recaudaron mucho dinero y comenzaron a gastar mucho dinero, y nosotros hicimos lo contrario. La última vez tuvimos una valoración de mil millones de dólares después de la ronda de financiación y nos ofrecieron más dinero con valoraciones más altas. Y entonces pensamos: ¿Y luego qué? ¿Rondas bajas como todos los demás? Eso es muy duro para su empresa. Como si pusiera tanto a sus empleados como a sus inversores en una mala situación. Así que recaudamos menos dinero con una valoración más baja porque estamos en esto a largo plazo.

Ahora, hemos analizado lo que están haciendo Cerebras, Graphcore, SambaNova, Groq y los demás, y todos tienen algo interesante o no recibirían financiación.

Se puede decir, bueno, no vamos a cometer esos errores y tenemos algo que aportar.

No creo que las GPU sean el principio y el fin de cómo ejecutar programas de IA. Todos los que describen un programa de IA, describen un gráfico, y el gráfico debe reducirse con interesantes transformaciones de software y asignarlo al hardware. Esto resulta ser mucho más difícil de lo que parece obvio por varias razones. Pero sentimos que en realidad estamos logrando avances reales en ese sentido. Así que podemos crear una computadora con IA que tenga buen rendimiento, que funcione bien y sea escalable. Estamos llegando allí.

La otra cosa es que comenzamos a construir un RISC-V, y en Tenstorrernt tuvimos largas charlas sobre esto, y creemos que el futuro será principalmente IA. Habrá interacción entre las CPU de uso general y los procesadores de IA, y ese programa y pila de software, y estarán en el mismo chip. Y luego habrá mucha innovación en ese espacio. Y llamé a mis buenos amigos de Arm y les dije que queríamos licenciarlo y que era demasiado caro y no querían modificarlo. Entonces decidimos construir nuestro propio procesador RISC-V. Y recaudamos dinero en parte en la última ronda sobre la tesis de que RISC-V es interesante.

Cuando les contamos esto a los clientes, nos sorprendió un poco (positivamente nos sorprendió) que la gente quisiera obtener la licencia del procesador RISC-V de forma independiente. Y luego también descubrimos que algunas personas que estaban interesadas en RISC-V también están interesadas en nuestra propiedad intelectual de IA. Cuando nos fijamos en el modelo de negocio de Nvidia, AMD, Habana, etc., no otorgan licencias de su propiedad intelectual a nadie. Entonces, la gente ha venido a nosotros y nos dice que si podemos demostrar que nuestra CPU o nuestro acelerador de IA funcionan (y la prueba es el silicio que funciona), entonces están interesados en obtener una licencia de IP, tanto de CPU como de acelerador de IA, para construir el suyo propio. productos.

Lo bueno de crear tu propio producto es que puedes poseerlo y controlarlo y no pagar el 60 o el 80 por ciento de margen bruto a otra persona. Entonces, cuando la gente nos dice que Nvidia ya ganó y pregunta por qué Tenstorrent competiría, es porque siempre que hay un monopolio con márgenes realmente altos eso crea oportunidades de negocio.

TPM: Esta es una discusión similar que existe actualmente entre InfiniBand, controlada por Nvidia, y el Consorcio Ultra Ethernet. La gente sigue diciéndome que Ethernet ha estado intentando acabar con InfiniBand desde que nació. Y les recuerdo que no están compitiendo con InfiniBand porque está muriendo. Por primera vez en dos décadas y media, está prosperando. Lo mismo ocurre con las CPU Intel en el centro de datos. No había manera de que el 50 por ciento de los ingresos operativos de Data Center Group se mantuviera a largo plazo. Ese tipo de ganancias no sólo atrae competencia, sino que la alimenta.

Jim Keller: En el mundo real, el margen bruto real siempre está en algún punto intermedio. Si estás muy por debajo del 10 por ciento, tendrás muchas dificultades para ganar dinero y si superas el 50 por ciento, invitarás a la competencia.

Luego está el ángulo del código abierto en todo esto. Lo bueno del código abierto es que la gente puede contribuir. Y luego también pueden tener la oportunidad de poseerlo, o tomar una copia y hacer cosas interesantes. El hardware es caro de generar, grabar cosas es difícil. Pero hay bastantes personas que construyen sus propios chips y quieren hacer cosas.

Esta es mi tesis: vamos a comenzar a generar más y más código con IA, y luego los programas de IA son una interacción entre la computación de propósito general y la computación de IA, lo que creará una ola completamente nueva de innovación. Y la IA ha sido bastante única en el sentido de que ha sido sorprendentemente abierta con modelos y marcos, y luego se ejecuta en hardware muy propietario.

TPM:Muchos frameworks y modelos no son de código abierto, e incluso aquellos que lo son a veces tienen restricciones comerciales, como LLaMA, o han sido cerrados, como OpenAI en la transición de GTP-3 y GPT-3.5 a GPT-4.

Jim Keller:Sí, ha habido un terreno muy irregular, estoy de acuerdo.

TPM: Pero estoy de acuerdo: ha habido un elemento de apertura a todo esto. Yo diría algo parecido a las bases de datos relacionales hace décadas.

Entonces aquí está la pregunta sobre el hardware abierto: cuando creas un procesador RISC-V, ¿tienes que devolverlo todo? ¿Cuál es el modelo de licencia?

Jim Keller: Aquí está la línea por la que estamos caminando. RISC-V es una arquitectura de código abierto, tenemos personas que contribuyen a esa definición de arquitectura. El modelo de referencia es de código abierto, el tipo que escribió el simulador del conjunto de instrucciones Whisper trabaja para nosotros. Creamos una unidad vectorial y contribuimos con ella. Creamos una versión RTL de una unidad vectorial y luego la abrimos. Hablamos con un grupo de estudiantes y dijeron que la infraestructura es buena, pero que necesitamos más infraestructura de prueba. Por eso estamos trabajando para abrir nuestra infraestructura de verificación RTL.

El RISC-V ahora posee la investigación universitaria sobre arquitectura de computadoras. Es lo predeterminado de facto. Nuestro procesador de IA tiene un motor RISC-V en su interior y hemos estado tratando de descubrir cómo abrir un procesador de IA RISC-V. Los estudiantes quieren poder hacer experimentos; quieren poder descargar algo, simularlo, realizar modificaciones, intentar cambiarlo. Y entonces tenemos una pila de software en nuestro motor, que estamos limpiando para poder abrirlo, lo cual haremos este año. Y luego nuestra implementación de hardware tiene demasiadas, digamos, partes sucias en el hardware, ya sabes, cosas propietarias. Y estamos tratando de descubrir cómo construir una versión abstracta, que es un procesador de IA RISC-V bastante limpio. Y me gustaría mencionar el código abierto porque lo bueno del código abierto es que una vez que la gente comienza a hacerlo y contribuye, crece. El código abierto es una calle de sentido único en este sentido: cuando la gente pasó a Linux, nadie volvió a Unix.

Creo que estamos entre el 1 y el 5 por ciento del camino hacia la IA. Creo que se llevarán a cabo muchos experimentos y el código abierto es una oportunidad para que la gente contribuya. Imagínese, retrocediendo cinco años, si existiera un motor de inteligencia artificial de código abierto. En lugar de hacer cincuenta cosas diferentes al azar que no funcionaron, imagínese si estuvieran haciendo sus propias versiones aleatorias de algo de código abierto, pero contribuyendo.

TPM: Y eso del código abierto funcionó. Como GPT-3, por ejemplo.

Jim Keller:Bueno, o que la red de toda esa gente generó una alternativa realmente creíble a Nvidia que funcionó.

He hablado con muchas empresas de inteligencia artificial y cuando estaba en Tesla, vi muchos motores. Y veinte empresas tendrían 50 personas trabajando durante dos años construyendo exactamente lo mismo que hicieron las otras diecinueve empresas. Si hubiera sido desarrollo de código abierto, habría avanzado mucho más rápido.

Algunas cosas de código abierto, como PyTorch, han estado abiertas por un tiempo, pero la forma en que se ejecutó el proyecto no fue excelente, pero PyTorch 2.0 solucionó eso. TVM es de código abierto; lo usamos y en realidad es bastante bueno. Veremos qué pasa con la empresa de Chris Lattner, Modular AI, y el lenguaje de programación Mojo. Dice que abrirá Mojo de código abierto, que realiza transformaciones adicionales del compilador de software. Pero no tenemos un objetivo claro debajo que impulse algunas de las cosas. Y hoy estaba hablando con mis muchachos sobre cómo podemos limpiar nuestro modelo de referencia y convertirlo en un buen modelo de referencia de motor de IA de código abierto al que la gente pueda agregar valor.

Y una vez más, creo que estamos en las primeras etapas de cómo se construirá el hardware de IA.

TPM: ¿Cuál es su modelo de ingresos? Supongo que vas a construir y vender cosas y vas a otorgar licencias.

Jim Keller: Construimos hardware. La idea inicial era que construiríamos este gran hardware. El año pasado, pusimos en funcionamiento nuestros primeros diez modelos. Pensamos que teníamos un camino hacia unos 30 o 50 modelos, y nos quedamos estancados. Entonces decidimos refactorizar el código: hicimos dos reescrituras importantes de nuestra pila de software. Y ahora estamos incorporando a algunos clientes al hardware que construimos. Hicimos un anuncio con LG, tenemos varias empresas de inteligencia artificial más en camino. Luego construimos esta CPU RISC-V, que es de muy alta gama. SiFive es una buena empresa, pero sus proyectos están en el medio, Ventana está un poco más arriba que eso. Y la gente seguía diciéndonos: Nos gustaría una CPU de muy alta gama. Así que estamos construyendo una CPU de muy alta gama y estamos en conversaciones con diez organizaciones para otorgarle licencia.

Somos una empresa de diseño. Diseñamos una CPU, diseñamos un motor de IA, diseñamos una pila de software de IA.

Entonces, ya sea una IP suave, un chiplet de IP dura o un chip completo, esas son implementaciones. Fuimos flexibles en ese frente. Por ejemplo, en la CPU, vamos a otorgarle licencias varias veces antes de grabar nuestro propio chiplet. Estamos hablando con media docena de empresas que quieren hacer chips de memoria personalizados o aceleradores NPU. Creo que para nuestra próxima generación, tanto de CPU como de IA, vamos a construir chipsets de CPU y de IA. Pero luego otras personas harán otros chiplets. Y luego los juntaremos en sistemas.

TPM:Ellos harán el ensamblaje y los sistemas, y lo único que a usted no le interesa es, literalmente, hacer un paquete que venderá a Hewlett Packard, Dell o quien sea.

Jim Keller: Veremos que pasa. Lo extraño es que realmente tienes que construirlo y mostrarlo. La gente dice: "Realmente me gustaría construir mil millones de esos, así que muéstrame 1.000". Entonces construimos una pequeña nube, tenemos 1000 de nuestros chips de IA en la nube. Cuando empezamos, simplemente íbamos a colocar los chips en servidores y darle acceso a la gente. Es realmente fácil. Hay Linux ejecutándose, o puedes tener bare metal.

TPM: Esa era mi siguiente pregunta. Si nos fijamos en empresas como Cerebras y SambaNova, realmente se están convirtiendo en proveedores de nube o proveedores de proveedores de nube específicos que buscan un nicho y también una forma de hacer que la IA sea más barata y más fácil que con las GPU de Nvidia. Según mis cálculos, parece que se necesitan alrededor de mil millones de dólares para entrenar un modelo de IA de próxima generación, y ese dinero tiene que venir de alguna parte, o hay que encontrar una manera de hacerlo más barato.

Jim Keller: Yo diría que aproximadamente la mitad de las nuevas empresas de software de IA ni siquiera saben que se pueden comprar computadoras. Hablamos con ellos, logramos que se interesen y luego nos preguntan si pueden probarlo en la nube. Por otro lado, a medida que las empresas crecen, comienzan a darse cuenta de que están pagando el triple o más por ejecutar IA en las nubes que en sus propios centros de datos; depende de lo que esté comprando y de cuál sea su tiempo de amortización. Es realmente caro.

Si diseñamos una CPU y un acelerador de IA que sean atractivos, existen canales de acceso al mercado: IP, chiplets, chips, sistemas y nube. Parece que para demostrar lo que estás haciendo, tienes que crear chips, sistemas y nubes para que la gente tenga acceso a ellos. Y luego el punto clave es: ¿se puede construir un negocio, formar un equipo de ingeniería, recaudar dinero y generar ingresos? Nuestros inversores en su mayoría dicen que no necesitamos que usted gane mil millones de dólares, necesitamos vender cosas por valor de decenas de millones de dólares para mostrar una señal de que los clientes pagarán por ello, que funciona y que lo quieren. Y esa es la misión en la que estamos ahora.

Estamos en el viaje. Hace poco le dije a alguien que, cuando las cosas no funcionan, tienes un proyecto científico; Cuando las cosas funcionan, tienes un problema con la hoja de cálculo. Una hoja de cálculo es así. Nuestros chips actuales están en Globalfoundries de 12 nanómetros. Y alguien pregunta qué tan rápido sería si lo trasladaran a 3 nanómetros. No hay ninguna ciencia espacial en esto. Usted conoce el rendimiento de GF12 y TSMC 5N, 5N y 3N, simplemente lo calcula en una hoja de cálculo y luego pregunta: "¿Es un producto atractivo?"

¿Pensé que íbamos a tener que hacer todas estas cosas cuando comencé? No en realidad no. Pero, de nuevo, ¿es sorprendente que, como empresa que vende computadoras con todas las funciones, tengas que hacerlo todo? Entonces solía bromear diciendo que cuando construyes un producto, existe la regla 80/20, que dice que el 20 por ciento del esfuerzo es el 80 por ciento de los resultados. Y luego está la regla del 100 por ciento, que consiste en hacer el 100 por ciento de las cosas que los clientes necesitan para tener éxito.

TPM: En la era moderna, las empresas no tienen que comprar todo lo interesante para ver qué funciona realmente y qué no. Entonces eso es una mejora. Pero independientemente del modelo de implementación, los costos de capacitación en IA son muy altos.

Jim Keller: Esto siempre es cierto durante un ciclo de auge. He hablado con varios capitalistas de riesgo que dicen que están recaudando 50 millones de dólares para una puesta en marcha de software de inteligencia artificial y 40 millones de dólares de esa cantidad acabarán destinándose a Nvidia. Cuando tienes prisa, esa es una buena respuesta. Y luego piensas, bueno, podría obtener el mismo rendimiento de Tenstorrent por 10 millones de dólares, pero hay que trabajar mucho más. Y luego hablan sobre el valor del dinero en el tiempo y luego gastan el dinero ahora. Pero cuando el ciclo de exageración comienza a desaparecer y la gente comienza a preguntarse ¿por qué gastan tanto dinero en cosas? ¿Cuáles son las alternativas creíbles? ¿Cómo bajamos el coste?

TPM: Estarás parado allí. ¿Cuánto se pueden reducir los costos de entrenamiento de IA con los chips Tenstorrent?

Jim Keller:Nuestro objetivo es entre 5 y 10 veces más barato.

TPM:Para ser precisos, entre 5 y 10 veces más baratos que los sistemas GPU de rendimiento similar.

Jim Keller: Sí. Hay algunas razones técnicas para ello. Usamos significativamente menos ancho de banda de memoria porque tenemos un compilador de gráficos y nuestra arquitectura es más una máquina de flujo de datos que las GPU, por lo que podemos enviar datos de un elemento de procesamiento a otro. Tan pronto como se utiliza un intercalador de silicio de HBM, resulta muy caro. Una de las cosas que es una locura en este momento es que si nos fijamos en el marcado de Nvidia en un H100 SXM5, la mayor parte del contenido de silicio es de Samsung o SK Hynix. Hay más valor en las DRAM de HBM que en el silicio de la GPU de Nvidia. Y además, si desea crear su propio producto, ¿Nvidia le venderá un bloque de IP o lo personalizará para usted? No.

TPM: ¿Tiene algún deseo de trabajar en redes o simplemente está enfocado en la informática? Espero que dé la respuesta correcta aquí.

Jim Keller: Tenemos puertos de red en nuestros chips, por lo que podemos conectarlos en grandes conjuntos sin pasar por el conmutador de otra persona. Ésta es una de las razones por las que, técnicamente, nuestro enfoque es más económico que el de Nvidia. A Nvidia le gusta vender conmutadores InfiniBand de alto margen. Construimos una caja donde no necesitamos eso.

En su situación actual, Nvidia es un generador de grandes márgenes. En nuestra situación, nos preguntamos por qué colocarías un interruptor InfiniBand entre un par de cientos de chips. ¿Por qué no hacer que los chips se comuniquen directamente entre sí? He hablado con un par de nuevas empresas de almacenamiento realmente interesantes con productos realmente interesantes y luego me dijeron que su misión es tener márgenes realmente altos. Les digo que nuestra misión es realmente reducir el costo de esto. Tienes que elegir tu misión.

Entonces, si alguien viene a mí y quiere obtener la licencia de los derechos de nuestra tecnología para poder modificarla y construir sus propios productos, creo que es una gran idea porque creo que la innovación se acelerará cuando más personas puedan tomar algo sólido. y luego trabajar en ello. Y eso se debe en parte a que tengo confianza en que aprenderemos de quienquiera que sea nuestro socio. Tenemos algunos diseñadores realmente buenos y estamos pensando mucho en nuestra próxima generación.

TPM: Entonces, ¿cómo se puede distinguir entre ser Arm antes de que SoftBank lo adquiriera y después de que SoftBank lo hiciera y Nvidia lo persiguiera? Quieres ser Brazo, no Brazo torcido.

Jim Keller:Por el momento, somos una empresa financiada con capital de riesgo y nuestros inversores quieren que nuestra tecnología funcione y quieren una señal positiva sobre nuestra capacidad para construir y vender productos, que es en lo que estamos enfocados.

Acabamos de plantear una ronda con Samsung y Hyundai por dos motivos diferentes.

Samsung me conoce bastante bien porque he creado productos con ellos en Digital Equipment, Apple, Tesla e Intel, y todos tuvieron éxito. Están interesados en el silicio para servidores, en el silicio de conducción autónoma y en el silicio de IA. Entonces, RISC-V será un generador de ingresos y quieren invertir en eso.

Hyundai salió de las conversaciones que estamos teniendo con todas las empresas automotrices del planeta y todas sienten que la industria necesita hacer algo con respecto al control que Mobileye y Nvidia tienen sobre ellos. Les gustaría tener opciones y a muchos de los fabricantes de automóviles les gustaría tener sus propias soluciones. Hyundai se interesó mucho en nosotros y dijo que querían invertir, se convirtió en el tercer fabricante de automóviles y acaba de comprar Boston Dynamics y se asocia con Aptiv a través de Motional. Están ganando dinero fabricando automóviles y otros productos, y son muy progresistas.

En un entorno donde habrá cambios rápidos, se forma un equipo en torno a personas excelentes y luego se recauda dinero. Estamos recaudando más de 100 millones de dólares en una ronda alcista, en un mercado difícil y, para ser honesto, tardó mucho más en cerrar que la última vez, eso es seguro. Me gusta trabajar con Samsung, tuve mucho éxito con ellos. Son una fábrica buena y sólida. Tienen una gran cartera de propiedad intelectual y los ayudaremos a crear un producto premium y llevarlo al mercado. Los muchachos de Hyundai son geniales y he hablado con mucha gente. Son súper inteligentes. Quieren fabricar chips, quieren ir rápido. Hay muchas oportunidades.

Presentamos aspectos destacados, análisis e historias de la semana directamente desde nosotros a su bandeja de entrada sin nada intermedio. Suscríbase ahora

Timothy Prickett Morgan:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller:TPM:Jim Keller: