本文 首发于 🌱 煎茶转载 请注明 来源

工具:Midjourney v5

blue glass curved background wallpaper in high quality 2266x1647, in the style of jeeyoung lee, focus on materials, victor enrich, transparent/translucent medium, plasticien, chromatic sculptural slabs, low-angle shots hyper-detail, light sky-blue and light bronze, high-key lighting, abstraction-création kodak elite chrome extra color, juxtaposition of light and shadow, clear colors smooth, modern minimalist, 3d render

如无意外会在每周一更新,主要介绍上周 AIGC 领域发布的一些产品以及值得关注的研究成果,由于我自己是一个设计师,所以在一些专业内容的描述上可能存在问题,欢迎在渠道帮我反馈及更正,如果觉得有收获的话也可以订阅一下。(本期部分文案使用了 Notion AI 以及 Chat GPT 帮助润色和翻译)

各位周一好呀,上周我们新增了 409 个订阅用户,现在总订阅达到了 2870 个,来看一下上周的内容总结。

上周我主要发的内容是每天晚上都会发的 Midjourney 提示词模板 汇总和相关提示词生成的 图片下载

❤️上周精选

上周值得关注的开源项目

RedPajama:一个计划创建一套领先开源模型的项目

现已完成第一个阶段——重现 LLaMA 训练数据集,共 1.2 万亿 Token。该数据集可用于商业应用和提供更透明的研究管道。数据集由七个数据切片组成,每个切片都有仔细的数据预处理和过滤,并根据质量过滤器的调整匹配图表。

Mini GPT-4:取巧的方式实现了多模态能力

结合冻结的视觉编码器与先进的大型语言模型 Vicuna,发现只需通过一个投影层就可生成类似 GPT- 4 的多模态能力,并补充了新的生成能力,如写作故事和诗歌以及根据照片教人做饭等。当然也可以实现 GPT- 4 发布时的那个著名演示,画个草图然后生成一个网页。

Stable Diffusion 的开发商 Stability AI 发布了开源大语言模型 Stable LM

该模型的 Alpha 版本有 30 亿和 70 亿参数,后续还有 150 亿到 650 亿参数模型。开发人员可以出于商业或研究目的自由检查、使用和调整 StableLM 基本模型。StableLM 的发布建立在与非营利性研究中心 EleutherAI 开源早期语言模型的经验之上。这些语言模型包括 GPT-J、GPT-NeoX 和 Pythia 套件,它们在 The Pile 开源数据集上进行了训练。他们老板前几天说要自己做 LLM,没想到这么快。github 地址:https://github.com/stability-AI/stableLM/… 模型下载:https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat

复旦训练的语言模型 Moss 开源了

OpenLMLab/MOSS 是一个来自复旦大学的开源对话语言模型,支持中英文和多种插件,具有多轮对话以及使用搜索引擎、文生图、计算器、解方程等功能的能力。MOSS 提供多个预训练模型以及相关数据,并支持本地部署,适用于简单数学应用题、解方程、中文语境、代码能力等任务。

一些传统互联网厂商的 AI 尝试

Raycast AI 逐步开放测试资格

Raycast AI 已经可以用了。主要支持 3 个功能。划重点内测是免费的。我现在主要用的两个自建机器人是翻译和推特内容生成。Raycast AI 的提示词逃逸控制的比 Poe 的好非常多胡说八道的时候非常少。

Ask AI: 创建一个对话窗口和 AI 对话

Create AI Command: 通过定义提示词创建你自己的机器人。

Search AI Commands: 搜索和使用内置的机器人和你自定义的机器人。

使用方式:直接拉起你的 Raycast 弹窗后搜 AI 就可以了

谷歌计划构建新的搜索引擎

Google 正在开发“全新的搜索引擎”,它将由新的人工智能技术驱动,同时正在努力为其当前搜索引擎添加新的基于人工智能的功能,该项目名为 Magi。根据报道,新的 Google 搜索引擎仍处于早期阶段,尚无发布时间表。该搜索引擎将“学习用户想要了解的内容”,并“提供预选选项的列表,以购买物品、研究信息和其他信息。”同时,它将更加可对话,就像与人交流一样。同时,Google 正在为现有的 Google 搜索添加新功能,可以允许搜索者完成交易,如购买鞋子或预订航班。根据报告,这些变化可以让搜索者回答关于“软件编码的问题并根据用户的请求编写代码”,同时在现有的 - 且有利可图的 - Google 搜索广告中仍然包括广告。

Adobe Firefly 可以通过自然语言编辑视频了

17 号 Adobe Firefly 宣布了文本编辑视频的功能,同时 Adobe Firefly 也会出现在 Creative Cloud 应用程序中。下面是 Adobe Firefly 的视频编辑功能

  • 可以快速应用色彩校正和增强
  • 允许轻松创建动画文本和动态图形,从而产生具有视觉吸引力和专业外观的视频
  • 通过分析脚本自动生成故事板
  • 会自动执行查找匹配的幕后素材的过程

Webflow 推出了自己的 AI 能力

著名的无代码工具 Webflow 推出了自己的 AI 能力,主要包括三个方面:

  • 利用 AI 帮助用户学习和使用 Webflow,在 AI 工具栏对话就能获取相关功能的教学

  • 利用 AI 提高创建效率:

    • 输入需求更改或者汇总 CMS 的内容、根据页面内容自动生成 SEO 设置、自动生成图片 ALT 标签提高可访问性、根据文本生成图片、根据提示生成代码、快速翻译页面内容为不同语言
    • 还可以输入提示生成新的页面元素、组件、批量修改相同类型的元素、根据周围的元素生成类似的设计。
  • 输入你的需求 Webflow AI 可以直接帮你生成一个完整的页面,匹配一个对应的模板并适合的文案和图片素材

⚒️产品推荐

AI 论文速递:快速阅读近期 AI 论文

BriefGPT,抓取 Arxiv AI 领域论文,通过 GPT 生成中文标题和论文概要,高亮顶会论文,方便快速筛选。目前抓取了 2023 年论文,后面会补充前几年论文。

Finchat:一个金融信息的 ChatGPT

里面有 750 多家公司的金融数据和 100 多家大投资人的信息。输入你的问题后他能给你检索到相关信息并给出提要。

Vercel AI Playground:免费使用多个语言模型进行对比

Vercel AI Playground 是 Vercel 提供的一个在线平台,可以让用户在交互环境中实验和测试 AI 模型,比如 OpenAI 的 GPT-3。用户可以输入文本或代码,AI 模型将根据输入生成响应。这使得开发人员和非开发人员都可以探索 AI 模型的功能,测试想法,并建立 AI 驱动的应用程序。

Codeamigo:利用 AI 学习代码

Codeamigo 是一款 AI 辅助编码工具,帮助用户像开发人员一样学习编码。与今天的开发人员一样,新手应该使用最先进的工具来学习编码,而不是从 C 开始学起。

TL;DV:AI 会议记录软件

TL;DV 是一款会议记录器,可自动记录、转录和总结通话,支持 20 多种语言,AI 会话记录员可快速总结会议要点,并可创建短视频剪辑。

Ogimi-AI 冥想和正念应用

创建自己的会话,随着您完成挑战和改善自我意识,跟踪您的进步。通过 AI 生成的个性化冥想、记录指导式冥想来学习基础技巧,跟踪持续天数并赚取点数,将您的实践与朋友和最优秀的冥想者进行比较。这个猴子有点搞的。

Synthesia:内容营销平台

Synthesia 是一款人工智能视频制作平台,可以创建超过 120 种语言和口音的视频,提供 60 种预设计模板和 125 种多样性的 AI 形象。

Channel:AI 驱动的数据分析工具

Channel 是一款自助式数据分析工具,无需知晓 SQL 语言即可查询数据,支持用简洁的英语进行查询。该工具可自动挖掘数据并生成美观的可视化图表,适用于团队合作使用,并且集成了多种常用数据仓库。设置简单快捷,无需工程师协助。

Kickresume:AI 优化简历

Kickresume 是一个在线简历和求职信建议工具。工具提供专业的简历和求职信模板,可帮助用户创建最佳求职资料,受到招聘人员的认可。该工具能够大大提升用户的求职成功率。

HyperDB:与 LLM 代理一起使用的本地矢量数据库

HyperDB 是一个超快速的本地向量数据库,可与 LLM 代理一起使用。它具有简单的接口、高度优化的 C ++ 后端向量存储以及 MKL BLAS 的硬件加速操作。

HealthGPT:分析你的健康数据

斯坦福学生制作的 APP,HealthGPT 链接你 iphone 的健康数据之后它可以帮你分析数据发现问题,并且根据你的健康数据给出建议。代码已经开源。

MULTI·ON Browser:ChatGPT 控制你的浏览器

这个 ChatGPT 插件有点猛的,它可以直接控制你的浏览器按你的要求访问对应的网站并完成任务。比如视频就演示了:打开对应网页查询天气、打开作者推特生成并发一条作者要求的相关内容的推、查找对应要求的饭店,并且按要求打开网页预定位置。

Better Prompt:Stable Diffusion Web UI 的提示词优化插件

这个 Stable Diffusion 提示词插件看着不错,跟月维的类似,只不过他是直接在 Web UI 中直接生效的。它支持提示词拖动顺序。还有一些特色功能支持用颜色标注提示词类型比如 Lora 就是蓝色,支持正负向提示词反转。还会用颜色的深浅来标注同一类提示词的权重。很直观。

Uncody:AI 驱动的网页构建工具

Uncody 是一款 AI 动力网页构建工具,让您创建令人惊叹的网站和高转化着陆页成为可能。预构建组件和模块化块可帮助您快速构建外观专业的网站,无需任何编码技能。

🧑🎓学习资源

如何在本地快速部署 AutoGPT

本视频演示如何在本地安装 Auto GPT,使用的工具是 gpt4,它可以连接到网络并完成设置的目标,距离真正的 AGI 更进一步。视频提供了两种安装方式,包括安装 get for Windows、Python,以及通过 GitHub 进行克隆等步骤。

微软的机器学习工程师课程

该课程是通过 Microsoft 的基于云的解决方案,如 Azure 机器学习和 Azure 认知服务,进入人工智能世界的入门课程。学生将有机会学习和亲身体验如何训练和传递机器学习模型,以及使用 Azure 认知服务处理典型的人工智能工作负载,例如计算机视觉,自然语言处理和对话 AI。

ChatGPT 课程——使用 OpenAI API 编写 5 个项目

通过学习本课程,您将掌握 OpenAI API 的全部内容,从而能够开发出类似于 ChatGPT、DALL- E 和 SQL 查询生成器等强大的应用程序。Ania 通俗易懂的教学风格,使您不仅能够掌握理论知识,还能够学习到实际应用技术。

🔬精选文章

Sam Altman:未来 LLM 的规模不会那么重要

OpenAI 的联合创始人兼 CEO Sam Altman 表示,大型语言模型(LLM)的规模不会总是越大越好,而是会越来越好。他认为“参数计数”是模型质量的虚假衡量标准,与 20 世纪 90 年代和 2000 年代的芯片速度竞赛相似。在这个领域,人们需要集中注意力来不断增强功能。Altman 还谈到了 OpenAI 的大型语言模型产品 GPT-4,并认为该技术的未来需要更严格地关注安全问题。

一种新的计算方法重新构想人工智能

看起来很厉害,但是我看不懂。超维计算是一种基于高维向量代数的符号推理方法,可以快速解决复杂问题,且允许出错。基于超维计算的新一代、稳定低功耗硬件兼容储存和计算,且可以更透明地解释其工作原理,改善了深度神经网络的缺点。目前,超维计算还处于发展初期,需要进一步测试其性能和解决处理大规模问题的问题。

Multimodal C4:一个开放的、10 亿规模的、与文本交错的图像语料库

包含图片的文本数据集 Multimodal C4(mmc4)。该数据集使用线性分配算法将图像插入长篇文本中,以实现更好的对齐效果。该数据集包含 103M 个带有 585M 个图片的文档,插入了 43B 个英文实体,主要涵盖了日常话题,如烹饪,旅行,技术等。

Inpaint Anything:分割任何东西满足图像修复需求

这篇论文提出了一种新的图像修复方法,称为 Inpaint Anything (IA),主要解决了遮挡选择和孔洞填充的问题。该方法采用“点击和填充”的方式,支持三个主要功能:(i) Remove Anything 用户可以点击物体并使 IA 将其移除并平滑“孔”,(ii) Fill Anything 在某些对象移除后,用户可以提供基于文本的提示,然后 IA 将通过 Stable Diffusion 等 AIGC 模型填充对应的生成内容,(iii) Replace Anything 用户可以选择保留点击选定的对象并将剩余的背景替换为新生成的场景。

了解大型语言模型

大型语言模型已经引起了公众的注意。在短短五年内,大型语言模型——Transformers——几乎完全改变了自然语言处理领域。此外,他们还开始彻底改变计算机视觉和计算生物学等领域。由于 Transformers 对每个人的研究都有如此大的影响,我想列一个简短的阅读清单。

经济学案例,为什么 AI 不能抢走你的工作

人工智能是否会拿走我们的工作?或者让我们工作更少,或者迫使我们更好地完成更多事情?当前供应的智能增加,会创造更多需要智能的任务,我们会将智能效率提高用于以前不可行的新事物。人类将需要更好地完成更多事情,而不是与机器竞争。将智能视为一种资源,引发的需求和马切蒂定律等经济理论可能导致更多需求,人工智能拓宽了我们的思维空间。

对齐你的潜变量:利用潜变量扩散模型的高分辨率视频合成

英伟达发布了一个高分辨率文本生成图像的模型。本质上是对 LDM 的生成的图片加上视频序列帧和时间进行微调。看演示页面视频质量相当可以分辨率达到了 1280 x 2048 连续性也非常好。比 Gen- 2 的示例看起来要好很多,难道真是万物 Diffusion 了?

深度探讨大语言模型生态链:芯片,基建,工具,开源,应用

本期《OnBoard!》AI 系列第三期讨论了大语言模型(LLM)周边生态系统的发展。嘉宾们来自生成式 AI 的上下游核心玩家,包括 Nvidia、Google Cloud、Huggingface 和 TensorChord 等公司,从芯片架构、GPU 集群管理到开发工具,他们共同探讨了 LLM 的机遇、挑战与未来。讨论中提到的产品包括 Cursor、Tabby、AutoGPT 和 HuggingGPT 等。此外,也聊到了 LLM 对传统 MLOps 工具链、监管和社会影响的影响。

设计背后:认识副驾驶

Microsoft Design 发布了一篇名为“当系统成为产品:打造下一代用户体验”的文章,介绍了新一代 AI 技术的应用。文章提到,在构建下一代用户界面时,必须建立起新的交互方法和设计方法。Microsoft 365 Copilot 是一个使用大型语言模型(LLM)的产品,它的用户体验需要结合简单、强大的性能以及伦理考虑,以帮助人们在使用该技术时理解其能力和局限性。文章探讨了适当的信任和人机协作的概念,并介绍了三个高度,以适应不同的任务和工作流程。在设计 Copilot 体验时,用户控制和教育也是重点关注的问题。

ChatGPT 的惊人潜力的内幕 -Greg TED 演讲

OpenAI 联合创始人 Greg Brockman 在 TED 大会上探讨了 ChatGPT 的设计原则,并演示了一些令人惊叹的未发布插件。在演讲之后,TED 主席 Chris Anderson 加入 Brockman,深入挖掘了 ChatGPT 开发的时间线,并获得了 Brockman 对发布这种强大工具可能带来的风险的看法。

自主代理完全入门指南 - 构建你的 AutoGPT

本文章介绍了自主代理(Autonomous Agents)的概念,它是一种 AI 程序,当它被赋予一个目标时,能够自行创建任务清单、完成任务、根据进展制定新任务并不断重复这个过程,直到目标达成。自主代理已经成为 AI 开发人员中增长最快的趋势之一,并且在未来的发展中有很大的机会。这篇文章详细介绍了自主代理的定义、工作原理、应用场景、以及如何构建或使用它们。