热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Andrej Karpathy
构建@EurekaLabsAI。曾任 AI @ Tesla 总监、创始团队 @ OpenAI、CS231n/PhD @ 斯坦福大学。我喜欢训练大型深度神经网络 🧠🤖💥
扩散视频模型,但现在是 - **实时**!
简单的视频滤镜是实时的,但只能进行基本的重新着色和样式。视频扩散模型(Veo 和朋友们)是魔法,但生成需要几秒钟/几分钟。MirageLSD 是实时魔法。与简单的视频滤镜不同,扩散模型实际上 *理解* 它们所看到的内容,因此它们可以智能地为所有部分的画面进行风格化(例如,把帽子放在头上,或把光剑放在手中,等等)。而且它们可以任意引导,例如通过文本提示。
可定制的智能视频滤镜随着时间的推移解锁了许多酷炫的想法:
- 将摄像头画面转变为替代现实
- 导演和拍摄自己的电影,使用道具表演场景。实时 => 即时反馈/回顾。
- 基于简单的球体/方块编写氛围代码游戏,然后使用实时扩散模型为你的游戏纹理,使其变得美丽。
- 风格化和定制任何视频画面:游戏、视频,... 例如,Skyrim 但 "更史诗"?DOOM II 但现代虚幻引擎质量,仅需一个提示?恐怖电影但 "可爱、粉色和只有兔子"?我不知道!
- Zoom 通话背景+++
- 实时虚拟试穿衣服
- 眼镜:例如,实时卡通化你的视野?
- 我们现在可以构建哈利·波特的厄里斯魔镜,显示你在镜子中的 "原始画面",但增强了你最深的愿望(由 AI 推断)。
- 我不知道,我可能错过了最大的一个,还有很多事情!
(披露:我在 Decart 是(非常小的)天使投资者,我很兴奋,因为在我看来,这项技术会很快变得非常好,并且感觉通用、强大,但它在技术上也非常困难。祝贺团队的发布!

Decart7月18日 04:44
介绍MirageLSD:首个实时流扩散(LSD)AI模型
输入任何视频流,从摄像头或视频聊天到计算机屏幕或游戏,实时将其转变为您所渴望的任何世界(<40毫秒延迟)。
以下是它的工作原理(附带您可以使用的演示!):
347.62K
我经常抱怨,99%的关注即将转向LLM的关注,而不是人类的关注。对于LLM来说,研究论文看起来是什么样的,而不是人类的?这绝对不是一个pdf。对于一个能够解决这个问题的极具价值的“研究应用”,有巨大的空间。

Michael Levin7月10日 22:47
我不断感到烦恼,因为我没有时间去阅读来自相关领域的优秀人士们快速涌现的海量论文。其他科学家也面临同样的问题,他们也没有时间去阅读我那些冗长的概念论文。那么,我们到底是为谁写这些论文呢?
我想,至少在他们因自己的工作而陷入同样的问题之前,人工智能将是唯一真正有能力阅读所有这些内容的存在。我并不是特别指今天的语言模型——我们假设我们指的是未来不可避免出现的任何能够阅读文献并对研究产生影响的人工智能(无论是通过与人类对话还是通过运行实验室自动化/机器人科学家平台)。
那么:我们应该如何写作,考虑到我们的许多受众将是人工智能(加上半人半机器的生物、增强人类等)?也许现在还为时已早,不知道该怎么做,但我们最好开始思考这个问题,因为假设我们的受众将永远是今天的人类似乎是不可行的。认真对待这样一个想法:有一天,影响力的受众将会非常不同,而我们现在所写的东西在某种意义上是为真正多样化的未来生物提供的训练集,我们的写作会如何改变?或者说会改变吗?
你们怎么看 @danfaggella @mpshanahan @Plinz @blaiseaguera ?
498.06K
如何像细菌一样编写代码来建立一个繁荣的开源社区 🦠。细菌代码(基因组)是:
- 小(每行代码都需要能量)
- 模块化(组织成可互换的操纵子组)
- 自包含(通过水平基因转移轻松“复制粘贴”)
如果代码块小、模块化、自包含且容易复制粘贴,社区就可以通过水平基因转移蓬勃发展。对于你编写的任何功能(基因)或类(操纵子):你能想象有人在不知晓你其余代码或不需要导入任何新内容的情况下“偷走”它,以获得好处吗?你的代码能成为热门的 GitHub 片段吗?
这种编码风格指南使细菌能够在地球深处和太空真空中,从寒冷到炎热、从酸性到碱性,殖民每一个生态角落,并展现出令人难以置信的碳合成、能量代谢等多样性。它在快速原型制作方面表现出色,但……它无法构建复杂的生命。相比之下,真核基因组是一个显著更大、更复杂、组织良好且耦合的单一代码库。虽然创造性较低,但对于复杂生命是必要的——用于构建整个器官并协调它们的活动。凭借我们智能设计的优势,应该可以利用两者。如果必须,构建一个真核单一代码库的骨架,但要最大化细菌 DNA。

538.71K
LLM "认知核心" 的竞争 - 一个几亿参数的模型,最大限度地牺牲百科知识以换取能力。它始终在线,并默认在每台计算机上作为 LLM 个人计算的内核存在。
它的特性正在慢慢成型:
- 原生多模态文本/视觉/音频输入和输出。
- 瓦尔特式架构,允许在测试时调节能力。
- 推理,也可以调节。(系统 2)
- 积极使用工具。
- 设备上的微调 LoRA 插槽,用于测试时训练、个性化和定制。
- 如果有互联网可用,委托并双重检查云中的正确部分。
它不知道威廉征服者的统治在 1087 年 9 月 9 日结束,但它模糊地识别这个名字,并可以查找日期。它不能背诵空字符串的 SHA-256 为 e3b0c442...,但如果你真的想要,它可以快速计算出来。
LLM 个人计算在广泛的世界知识和顶级问题解决能力上有所欠缺,但它将在超低交互延迟(尤其是多模态成熟时)、直接/私密的数据和状态访问、离线连续性、主权(“不是你的权重,不是你的大脑”)等方面弥补。即:我们喜欢、使用和购买个人计算机而不是通过远程桌面访问云的许多相同原因。
1.03M
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可