08
04
2024
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对它进行详细的介绍。SwiGLU其...
03
04
2024
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
组查询注意力(GroupedQueryAttention)是大型语言模型中的一种多查询注意力力方法,它的目标是在保持MQA速度的同时实现MHA的质量。GroupedQueryAttention将查询分...
26
03
2024
使用GaLore在本地GPU进行高效的LLM调优
训练大型语言模型(llm)是一项计算密集型的任务,即使是那些“只有”70亿个参数的模型也是如此。这种级别的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等...
01
03
2024
可视化FAISS矢量空间并调整RAG参数提高结果精度
随着开源大型语言模型的性能不断提高,编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时,LLM通常会在未训练数据的相关的问题上有所欠缺,很多内部文件都保存在公司内...
01
03
2024
让GenAI提供更好答案的诀窍
GenAI作为一种界面具有巨大的潜力,可以让用户以独特的方式查询数据,获取满足他们需求的答案。例如,作为一个查询助手,GenAI工具可以帮助客户通过简单的问答格式更有效地浏览广泛的产品知识库。通过这种...




