20240221 英伟达推出ConsiStory免训练文生图模型
🦉 AI新闻
🚀 英伟达推出ConsiStory免训练文生图模型
摘要:ConsiStory是一种免训练的一致性连贯文生成图模型,由英伟达和特拉维夫大学的研究人员开发。它解决了文生成图模型在生成内容一致性方面的两个主要问题。首先,ConsiStory使用主体驱动自注意力(SDSA)模块来共享主体相关的视觉信息,使不同图像中的主体保持一致的外观。其次,它通过特征注入方法在图像之间共享自注意力输出特征,从而增强不同图像之间细节层面的一致性。此外,ConsiStory还使用锚图像和可重用主体来提供主题信息的参考功能,并实现主题一致性。总的来说,ConsiStory通过共享和调整模型内部表示来实现主体的一致性,且可以作为一种插件,帮助其他扩散模型提升文生成图的一致性和连贯性。
🚀 Groq推出全球最快大模型,性能惊人
摘要:近期,Groq公司的大型语言模型因其高效的性能而爆火网络,它能每秒输出近500个token,大幅领先于当前市场上的模型如ChatGPT-3.5和GPT-4。Groq背后的秘密武器是自研的语言处理单元(LPU),一种专门为AI计算设计的硬件,其速度和效率均超过传统的GPU。该公司提供的LPU每张价值2万美元,内存仅有230MB,但在大型语言模型(LLM)推理任务上的性能却是英伟达GPU的十倍。此外,Groq还提供了兼容OpenAI API的开发接口,以及高至每秒750个token的生成速度,引起了广泛的关注和讨论。
🚀 谷歌 Gemini Advanced 更新可直接运行 Python 代码
摘要:谷歌于2月8日宣布Bard AI聊天机器人正式更名为Gemini,并随之推出了对应的安卓App。其中,搭载Gemini Ultra 1.0模型的版本,为提供更优质服务,设置了Gemini Advanced订阅制。这一高级版本在逻辑推理、执行指令、编程和创意协作等领域表现出色,并承诺未来几个月将增加更多独家功能,如丰富的上下文背景信息、强大的多模态交互和优秀的编程能力。此外,Gemini Advanced还特别提供了在界面中直接编辑和运行Python代码的功能,旨在帮助开发者快速验证和实验代码。从2月21日起,Google Workspace客户将享受到Gemini的企业级数据保护。这一消息不仅对潜在的程序员、现有开发者社群意义重大,也代表了AI聊天机器人技术的一大步进。
🚀 IEEE创立首份AI硬件研究期刊
摘要:杜克大学电子与计算机工程系教授陈怡然宣布,经过两年多筹备,IEEE技术活动委员会批准创建了首份专注于人工智能硬件研究的期刊——IEEE Transactions on Circuits and Systems for Artificial Intelligence(TCASAI)。该期刊旨在满足人工智能硬件及平台发展迅速带来的科研与交流需求。陈教授将担任创刊主编,首期预计今年秋季发布。期刊得到了IEEE多个学会与理事会的财务与技术支持,预计将成为IEEE旗下影响力很高的硬件期刊。
🚀 Midjourney 创始人谈AI艺术版权争议
摘要:Midjourney创始人David Holz近期就AI艺术创作的版权问题及其对传统艺术家生计的影响做出回应。他承认,Midjourney在构建数据集时并未征得在世艺术家或受版权保护作品的同意,同时强调该技术主旨在扩展人类想象力而非替代艺术家。Midjourney提供的是一种促进创意并加速概念设计过程的工具,支持商业用途但对大公司有额外许可要求。尽管如此,围绕版权和AI技术对艺术行业未来的影响,仍存有较多争议和担忧。
🗼 AI知识
🔥 Sora物理悖谬的几何解释
Sora技术路线中的缺陷:概率统计无法精确表达物理定律,Transformer不能判断视频的全局合理性,临界态样本稀缺且扩散模型模糊化了数据流形的边界。
更多AI工具,参考国内chatgpt4me,Github-chatgpt4me