为网站构建一个问答 AI 聊天机器人
在当今数字时代,对信息的立即获取需求比以往任何时候都更加迫切。
当用户浏览网站时,通常希望能够迅速找到问题的答案,而不必费力地筛选大量内容。
这个问题的答案在于一个先进的聊天机器人,它可以阅读网站的内容并向用户提供准确的回复。
本文深入探讨了这样一个聊天机器人的开发,其中涉及了网页抓取和对话式人工智能技术。
带有关于 developer-service.io/ 的问题的 ChatBot 脚本示例:
Human: what is this website about?
Loading answers...
ChatBot: This website is about a content creation service that specializes in serving emerging businesses, particularly startups in the technology industry. The mission of this service is to equip these businesses with the necessary knowledge and perspectives they need to thrive in a competitive landscape. They offer tailored content that not only informs but also inspires action and drives results. Their team consists of experienced writers and tech enthusiasts who provide high-quality, customized articles that align with the client's vision, voice, and goals. They offer three content packages designed to support different stages of a startup's journey and provide SEO-optimized content with a typical turnaround time of 5-7 business days. They also help with content strategy, planning, and industry-specific insights.
网站特定聊天机器人简介
网站特定聊天机器人是改善在线用户体验的重要进展。与标准聊天机器人相比,这些机器人定制了解特定网站的独特内容,为用户提供直接从网站页面获取的信息。
它们具有解答查询、简化导航和提供即时帮助的能力,使其成为网站所有者努力提升参与度和用户满意度的不可或缺的工具,也可以是一种让用户了解网站内容并在不需要阅读整个内容的情况下进行导航的工具。
在其中,将发现大量的 Python 机密,本文将引导学习如何编写更干净、更快速和更符合 Python 风格的代码。无论是掌握数据结构,理解面向对象编程的微妙之处,还是揭示 Python 的隐藏功能。
技术堆栈
开发能够解释网站内容的聊天机器人需要使用的技术:
Python
:作为基础编程语言,Python 因其易用性和庞大的库生态系统而备受推崇。LangChain
和MistralAI
:对于会话式人工智能元素,使用LangChain
进行会话检索链,使用 MistralAI 进行语言嵌入和模型。FAISS
:一个库,可以在大型数据集中实现高效的相似性搜索,使聊天机器人能够定位最相关的内容。在这里,将与 LangChain 一起使用它。BeautifulSoup
和Requests
:这些工具对于网络抓取至关重要,能够系统地浏览和抓取网页内容。
项目包括以下文件:
search_links.py
:管理网站内链接的搜索。create_index.py
:负责索引网站内容。chat_bot.py
:控制聊天机器人交互的逻辑。main.py
:执行聊天机器人应用程序的主要入口点。
在接下来的部分中,将深入探讨每个文件的内容和逻辑细节。
注意,此项目需要 API 密钥才能访问 MistralAI 平台。如果没有 API 密钥,可以在此处获取一个(这需要一个 MistralAI 帐户)。
search_links.py
search_links.py
的主要目标是自动发现网站上可导航的链接,创建一个全面的 URL 列表,供聊天机器人的索引系统随后下载和分析。这个过程涉及:
- 在给定域内获取网页。
- 解析 HTML 内容以提取链接。
- 递归地跟踪这些链接,以揭示更多内容,同时避免重复和无关的链接。
search_links.py
的一个重要特点是它能够识别哪些链接是值得跟踪的。为了保持对有价值内容的关注,它会过滤掉以下内容:
- 导向电子邮件地址的链接(
mailto:
)。 - 电话链接(
tel
)。 - 图片文件的直接链接(
.png
、.jpg
、.jpeg
)。 - OAuth 终端的链接。
- JavaScript 链接和锚点(
javascript:
、#
)。
这种选择性过程确保脚本仅追求可能导致与聊天机器人知识库相关的实质内容的链接。
下面是 search_links.py
代码:
# Import the necessary libraries
from urllib.parse import urlparse, urljoin
import requests
from bs4 import BeautifulSoup
from langchain_community.document_loaders.async_html import AsyncHtmlLoader
from langchain_community.document_transformers.beautiful_soup_transformer import BeautifulSoupTransformer
from requests.auth import HTTPBasicAuth
# Get links from HTML
def get_links_from_html(html):
def get_link(el):
return el["href"]
return list(map(get_link, BeautifulSoup(html, features="html.parser").select("a[href]")))
# Find links
def find_links(domain, url, searched_links, username=None, password=None):
if ((not (url in searched_links)) and (not url.startswith("mailto:")) and (not url.startswith("tel:"))
and (not ("javascript:" in url)) and (not url.endswith(".png")) and (not url.endswith(".jpg"))
and (not url.endswith(".jpeg")) and ('/oauth/' not in url)
and ('/#' not in url) and (urlparse(url).netloc == domain)):
try:
if username and password:
requestObj = requests.get(url, auth=HTTPBasicAuth(username, password))
else:
requestObj = requests.get(url)
searched_links.append(url)
print(url)
links = get_links_from_html(requestObj.text)
for link in links:
find_links(domain, urljoin(url, link), searched_links, username, password)
except Exception as e:
print(e)
# Search links
def search_links(domain, url, username=None, password=None):
# Define the list of searched links
searched_links = []
# Find the links
find_links(domain, url, searched_links)
# Return the searched links
return searched_links
代码的解释:
- 导入了必要的库
get_links_from_html
函数被定义为从 HTML 文档中提取链接。它使用BeautifulSoup
解析 HTML,并选择所有带有href
属性的锚标签。get_link
函数是一个辅助函数,它从每个锚标签中提取href
值。find_links
函数是一个递归函数,接受一个域名、一个 URL、一个搜索链接列表,以及可选的用于 HTTP 基本身份验证的用户名和密码。- 它检查
URL
是否满足某些条件(例如,之前未搜索过、属于指定域、不是mailto
或tel
链接等)。 - 如果
URL
满足这些条件,则函数将向 URL 发送HTTP GET
请求,将URL
添加到搜索链接列表中,并打印URL
。 - 然后从
URL
的HTML
内容中提取所有链接,并对每个提取的链接递归调用自身。 search_links
函数被定义为启动链接搜索过程。它接受一个域、一个 URL,以及用于 HTTP 基本身份验证的可选用户名和密码。- 初始化一个空的搜索链接列表,并使用提供的域名,URL 和认证细节调用
find_links
函数。然后返回搜索链接列表。
create_index.py
脚本封装了索引网站内容的过程,将其从简单的文本转换为结构化的,可搜索的格式。
在其核心, create_index.py
负责以下工作:
- 检索网站内容,利用
search_links.py
提供的 URL 列表。 - 解析和清理获取的内容,提取有用的文本,移除 HTML 标签、脚本和其他非必要元素。
- 通过自然语言处理技术处理文本,以理解其语义含义。
- 为文本创建嵌入,这些嵌入是代表内容的高维向量,以一种捕捉其上下文和细微差别的方式呈现。
- 将这些嵌入索引在可搜索的数据库中,使聊天机器人能够针对索引内容执行语义搜索。
create_index.py
代码:
# Imports
from decouple import config
from langchain_community.document_loaders.chromium import AsyncChromiumLoader
from langchain_community.document_loaders.url_selenium import SeleniumURLLoader
from langchain_community.document_transformers.beautiful_soup_transformer import BeautifulSoupTransformer
from langchain_community.vectorstores.faiss import FAISS
from langchain_mistralai import MistralAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
# Load document from URLs
def load_documents_from_urls(urls):
# Load HTML
loader = AsyncChromiumLoader(urls)
html = loader.load()
# Transform
bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(html,
unwanted_tags=["script", "style", "header", "footer"],
tags_to_extract=["body"])
# Result
return docs_transformed
# Split documents
def split_documents(documents):
splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=150)
texts = splitter.split_documents(documents)
return texts
# Index site
def index_site(texts):
db = FAISS.from_documents(texts, MistralAIEmbeddings(mistral_api_key=config('MISTRAL_API_KEY')))
db.save_local("./index.faiss")
# Create index
def create_index(urls):
documents = load_documents_from_urls(urls)
texts = split_documents(documents)
index_site(texts)
代码的解释:
- 导入必要的库
- 定义
load_documents_from_urls
函数以从 URL 列表中加载和转换 HTML 文档。它使用AsyncChromiumLoader
加载 URL 的 HTML 内容,并使用BeautifulSoupTransformer
将 HTML 内容转换为文本,去除不需要的标记,仅提取所需的标记。 split_documents
函数被定义为使用RecursiveCharacterTextSplitter
将转换后的文档分割成较小的块。可以配置块大小和重叠。index_site
函数被定义为从拆分的文档创建 FAISS 索引。它使用MistralAIEmbeddings
为文档生成嵌入,并使用FAISS.from_documents
从嵌入创建 FAISS 索引。索引被保存在本地,文件名为index.faiss
。create_index
函数被定义为启动索引创建过程。它接受一个 URL 列表,加载和转换来自 URL 的文档,将文档分割成较小的块,并从这些块创建一个 FAISS 索引。
chat_bot.py
chat_bot.py
脚本是聊天机器人应用的核心,集成了人工智能和检索技术,能够与用户进行有意义、上下文相关的交互。
这个脚本有几个重要的作用:
- 对话式检索链: 它利用检索链来理解用户查询,并从索引内容中获取适当的响应。
- 与 MistralAI 集成:通过整合 MistralAI,脚本增强了聊天机器人对自然语言的理解能力,从而实现更加细致入微的交互。
- 使用 FAISS 进行高效搜索: 脚本利用 FAISS 快速搜索内容嵌入,确保快速和相关的响应。
- 内存缓冲区管理:内存缓冲区记录了对话的上下文,帮助聊天机器人保持连贯和具有上下文意识的对话。
下面是 chat_bot.py
脚本的代码,展示了这些组件是如何协同工作的
# Imports
from decouple import config
from langchain.chains.conversational_retrieval.base import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory
from langchain_community.vectorstores.faiss import FAISS
from langchain_core.callbacks import StreamingStdOutCallbackHandler
from langchain_mistralai import MistralAIEmbeddings, ChatMistralAI
# Get retriever from file index
def retrieve_from_index():
db = FAISS.load_local("./index.faiss",
embeddings=MistralAIEmbeddings(mistral_api_key=config('MISTRAL_API_KEY')),
allow_dangerous_deserialization=True)
retriever = db.as_retriever(
search_type="mmr",
search_kwargs={"k": 8},
max_tokens_limit=4097,
)
return retriever
# Start chat
def start_chat():
retriever = retrieve_from_index()
memory = ConversationBufferMemory(memory_key="chat_history", input_key='question', output_key='answer',
return_messages=True)
model = ChatMistralAI(model="open-mixtral-8x7b", mistral_api_key=config('MISTRAL_API_KEY'), temperature=0.7)
qa_chain = ConversationalRetrievalChain.from_llm(model, retriever=retriever,
return_source_documents=True,
memory=memory)
return qa_chain
# Chatbot
def chat_bot(chain, question):
print("Loading answers...")
result = chain.invoke(question)
print(f"\nChatBot: {result['answer']}")
# Optional: Print source documents
# for source in result['source_documents']:
# print(source)
代码的解释:
- 导入必要的库
- 定义
retrieve_from_index
函数,以从本地文件加载 FAISS 索引并创建检索器对象。检索器配置为使用最大边际相关性(MMR)算法进行搜索,搜索参数为8
。 - 定义
start_chat
函数以初始化聊天机器人。它从搜索索引加载检索器对象,创建一个ConversationBufferMemory
对象来管理对话历史,并创建一个ChatMistralAI
对象来使用 Mistral AI 语言模型生成响应。然后创建一个ConversationalRetrievalChain
对象,将检索器、内存和语言模型组合起来,以生成对用户查询的响应。 chat_bot
函数被定义为处理用户查询。它接受一个chain
对象和一个question
字符串作为输入,并使用chain.invoke
方法生成问题的响应。响应被打印到控制台,同时还会显示用于生成响应的源文件(如果已配置)。
main.py
main.py
文件用作用户与聊天机器人应用程序交互的主要入口。此脚本负责初始化聊天机器人、处理用户输入并管理用户与机器人之间的交互流程。
main.py 有几个关键原因:
- 初始化:它通过加载必要的资源(包括内容索引和对话模型)来初始化聊天机器人。
- 用户交互:它提供了一个用户界面,即命令行,用户可以在其中输入问题并获得答案。
- 集成:它将应用程序的各个组件联系在一起,确保它们共同工作,提供无缝的用户体验。
这是 main.py
的代码,展示了聊天机器人组件和用户交互循环的集成方式:
# Imports
from chat_bot import start_chat, chat_bot
from create_index import create_index
from search_links import search_links
# Define the domain and url
domain = "developer-service.io"
url = "https://developer-service.io"
# Search for the link
links = search_links(domain, url)
# Index the links
create_index(links)
# Start chat
chain = start_chat()
# Chat with the bot
question = input("\nHuman: ")
while question != "exit":
chat_bot(chain, question)
question = input("\nHuman: ")
注意:在为特定站点运行索引之后,可以从 start_chat
开始再次运行该脚本(因为它将从磁盘加载索引)来提问。
该脚本结合了其他三个脚本( chat_bot.py
, create_index.py
和 search_links.py
)的功能,以创建一个聊天机器人,该机器人可以根据从特定网站收集的信息回答问题。
代码的解释:
- 必要的功能从三个脚本中导入:
start_chat
和chat_bot
来自chat_bot.py
,create_index
来自create_index.py
,search_links
来自search_links.py
。 - 要索引的网站的域和 URL 被定义。在这种情况下,网站是
https://developer-service.io
。 - 调用
search_links
函数来搜索网站上的所有链接。该函数返回一个链接列表,存储在变量 links 中。 - 调用
create_index
函数来对链接的内容进行索引。该函数创建一个搜索索引,可以快速检索网站的相关信息。 - 调用
start_chat
函数来初始化聊天机器人。该函数返回一个chain
对象,可用于与聊天机器人交互。 - 脚本进入一个循环,在这个循环中用户可以向聊天机器人提问并接收答案。循环会持续,直到用户输入
exit
。在循环内部,调用chat_bot
函数,传入 chain 对象和用户的问题作为参数。该函数生成对问题的响应并将其打印到控制台。然后使用 input 函数再次读取用户的输入。
运行聊天机器人
在运行主脚本之前,需要确保所有的要求都已就位:
pip install requests langchain bs4 langchain-mistralai faiss-cpu python-decouple playwright
要使用 MistralAI API 密钥,首先需要将其存储在一个 .env
文件中:
MISTRAL_API_KEY=<YOUR_MISTRAL_API_KEY>
确保自己的密钥替换占位符。现在可以运行脚本:
python main.py
并与聊天机器人聊天:
Human: what is this website about?
Loading answers...
ChatBot: This website is about a content creation service that specializes in serving emerging businesses, particularly startups in the technology industry. The mission of this service is to equip these businesses with the necessary knowledge and perspectives they need to thrive in a competitive landscape. They offer tailored content that not only informs but also inspires action and drives results. Their team consists of experienced writers and tech enthusiasts who provide high-quality, customized articles that align with the client's vision, voice, and goals. They offer three content packages designed to support different stages of a startup's journey and provide SEO-optimized content with a typical turnaround time of 5-7 business days. They also help with content strategy, planning, and industry-specific insights.
总结
能够阅读网站内容并提供答案的聊天机器人的开发代表了提升用户体验的重大进步。通过利用网页抓取、自然语言处理(NLP)和对话式人工智能技术,开发人员可以创建不仅提高用户参与度,还提供即时信息访问的聊天机器人,从而改变与数字内容互动的方式。
转载自:https://juejin.cn/post/7366516215378051122