HELLO AIGC-N5

Open source Large model

N05 2023-7-31

Ps:封面图由开源模型 SDXL 生成，除文本输入生成外无任何修改，期待微调模型与插件应用对细节与风格的优化。

《

Hello AIGC 》开源大模型

在线免费使用 SDXL 模型的工具

#SD# #SDXL# #开源模型# 免费快速尝试 SDXL 模型（目前效果接近 Midjourney 平替水平的开源模型）的8个方法

1. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 稳定AI/稳定扩散-XL-基-1.0 ·拥抱脸 (huggingface.co)

2. https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0 稳定AI/稳定扩散-XL-精炼器-1.0 ·拥抱脸 (huggingface.co)

3. https://clipdrop.co/stable-diffusion Clipdrop - Stable Diffusion

4. https://dreamstudio.ai/generate DreamStudio

5. https://discord.com/invite/CDNvxYeM Discord

6. https://sdxl.replicate.dev/ SDXL – 复制的设置指南 (replicate.dev)

7. https://stablediffusionapi.com/playground 游乐场 - 稳定扩散和梦幻亭 API - 使用 API 生成和微调梦幻铺稳定扩散 (stablediffusionapi.com)

8. https://playgroundai.com/create 也推荐这个付费平台，可以云上使用 SDXL 与 automatic1111 https://www.thinkdiffusion.com/ 实用教程：

https://learn.thinkdiffusion.com/using-sdxl/ 模型发布官方报道：

https://stability.ai/blog/stable-diffusion-sdxl-1-announcement

https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/ 稳定AI/稳定扩散-XL-精炼器-1.0 ·拥抱脸 (huggingface.co)

https://stablediffusionapi.com/playground/ 游乐场 - 稳定扩散和梦幻亭 API –使用 API 生成和微调梦幻铺稳定扩散 (stablediffusionapi.com)

https://sdxl.replicate.dev/ SDXL – 复制的设置指南 (replicate.dev)

https://discord.com/invite/CDNvxYeM

https://clipdrop.co/stable-diffusion

Discord

Clipdrop - Stable Diffusion

https://playgroundai.com/create

https://www.thinkdiffusion.com/

知识库汇编 ·开源大模型

#AI前沿# #LLM# #开源模型#

Meta 发布了Llama-v2，一个可以商业使用的开源LLM。这些型号具有 7B、13B 和 70B 参数。 Llama-v2 已在 Azure 上推出，很快就会在 AWS、Hugging Face 等平台上推出。

体验地址：

https://labs.perplexity.ai/ 模型下载地址：

https://ai.meta.com/resources/models-and-libraries/llama-downloads/ github： https://github.com/facebookresearch/llama

Llama2在 iPhone、iPad �上以 GPU 加速方式原生运行。不需要互联网连接。请参阅 IOS 说明立即获取试飞应用程序：

https://mlc.ai/mlc-llm/docs/get_started/try_out.html

�系好安全带，准备好在单台 MacBook 上使用 70B Llama-2 进行狂野的骆驼骑行�

�现在，70B Llama-2 可以在 64G M2 max 上以 4bit流畅运行。

- 7 tok/sec on M2 Max

- 9.8 tok/sec on M2 ultra - A bonus - some preliminary number on A100: 13 token/sec

#AI开源项目推荐#：

PKU-YuanGroup/ChatLaw

来自北京大学ChatExcel课题组开源的中文法律大模型ChatLaw，极大的解决了GPT的幻觉问题。

相关论文：https://arxiv.org/pdf/2306.16092.pdf

官网：chatlaw.cloud

项目地址：GitHub-PKU-YuanGroupChatLaw中文法律大模型 #视频理解# #大模型# #综合视听能力# #LLM#

摘要：本文介绍了达摩院研究人员提出的具有综合视听能力的大模型Video-LLaMA，该模型能够理解视频

并能够理解用户输入的指令，包括音视频描述和写作等。该模型采用了模块化设计原则，通过视觉和音频模态信息映射到大语言模型的输入空间中，并能捕捉视觉中的动态场景变化和整合视听信号。但该模型存在推理能力和计算资源较高的局限性。

链接：https://www.jiqizhixin.com/articles/2023-06-08-6

#多模态# #LLM# #开源#

ImageBind：跨六种模态（ images, text, audio, depth, thermal, and IMU data）的大模型

这些模态数据的具体指代如下：

- 图像：指数字图像，可以是彩色或黑白的，例如JPEG、PNG等格式的图像。

- 文本：指自然语言文本，例如英语、中文等语言的句子或段落。

- 音频：指数字音频信号，例如MP3、WAV等格式的音频文件。

- 深度：指深度图像或点云数据，可以用于三维重建和物体识别等任务。

- 热成像：指红外热成像图像，可以用于检测物体表面温度分布等应用。

- 惯性测量单元（IMU）数据：包括加速度计和陀螺仪等传感器输出的数据，可以用于姿态估计和运动跟踪等任务。

官方报道：

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/ github：

https://github.com/facebookresearch/ImageBind

论文：

https://arxiv.org/abs/2305.05665

demo：

https://imagebind.metademolab.com/demo

#开源# #文本生成图像# #AIGC#

项目地址：

https://github.com/deep-floyd/IF 官方报道：

https://stability ai/blog/deepfloyd-if-text-to-image-model

Stability AI与其多模态AI研究实验室DeepFloyd 起宣布了DeepFloyd IF的研究发布，这是一个强大的文本到图像级联像素扩散模型。

DeepFloyd IF 是个先进的文本到图像模型，发布于非商业，研究许可证下，为研究实验室提供了一个机会，以检查和实验高级文本到图像生成方法。与其他Stability AI模型一样，Stability AI打算在未来完全开源发布 DeepFloyd IF模型。

#开源# #LLM# #chatbot#

HuggingChat链接：https://huggingface.co/chat/

社区： https://huggingface.co/spaces/huggingchat/chat-ui/discussions?status=open

OpenAssistant 模型：https://huggingface.co/OpenAssistant/oasst-sft-6-llama-30b-xor

相关报道：

https://techcrunch.com/2023/04/25/hugging-face-releases-its-own-version-of-chatgpt/

视频解读：

https://www.youtube.com/watch?v=DjXPRl799PU

详情概要：

Huggingface 出品，开源生态与闭源chatGPT的竞争已至白热化

HuggingChat 是一个强大的聊天机器人，它使用 Open Assistant 的最新模型、顶级开源聊天模型和

Hugging Face Inference API，用于在生产环境中无缝部署和管理 NLP 模型。

#开源# #CV# #AI模型组合创新#

https://github.com/IDEA-Research/Grounded-Segment-Anything 图像识别+图像分割+LLM+图像生成模型组合创新加速，输入文字，分割切，创造切

这个项目背后的核心思想是结合不同模型的优势，以构建一个非常强大的管道来解决复杂的问题。值得提的是，这是一个结合强大专家模型的工作流程，其中所有部分都可以单独或组合使用，并且可以替换为任何相似但不同的模型（例如用GLIP或其他检测器替换Grounding DINO /替换Stable-与 ControlNet 或 GLIGEN 的扩散/与 ChatGPT 结合）。

模型组合示例：

Segment Anything是一个强大的细分模型。但它需要提示（如框/点）来生成掩码。

Grounding DINO是种强大的零样本检测器，能够生成带有自由格式文本的高质量框和标签。

Grounding DINO + SAMenable的组合可以通过文本输入检测和分割任何级别的所有内容！

组合BLIP + Grounding DINO + SAM用于自动贴标系统！

Grounding DINO + SAM + Stable-diffusion数据工厂的组合，生成新数据！

Whisper + Grounding DINO + SAM用语音检测和分割任何东西的组合！

�

�说话编辑�: Whisper + ChatGPT + Grounded-SAM + SD

The cyberpunk Valkyries ride a cyberpunk heavenly horse, punching the air, blonde hair, blue eyes, Italian, garden, detailed face, cyberpunk，8k, raw, masterpiece, Watercolor, trending on artstation, sharp focus, studio photo, intricate details, highly detailed, by greg rutkowski

本期咒语

photo,

Supersymmetric black glass metal cube, center symmetric, spiral surround, exudes a dazzling halo, 3d rendering, oc rendering, Broken Glass effect, no background, stunning, something that even doesn't exist, mythical being, energy, molecular, textures, iridescent and luminescent scales, breathtaking beauty, pure perfection, divine presence, unforgettable, impressive, breathtaking beauty, Volumetric light, auras, rays, vivid colors reflects