import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
# 示例数据集
questions = [
"如何申请营业执照?",
"我的社保账户怎么登录?",
"我想了解最新的税收政策。",
"如何更改公司名称?"
]
answers = [
"请访问我们的官方网站并填写相关表格。",
"使用身份证号码作为初始密码进行登录。",
"最新政策可从官网下载。",
"联系当地工商局提交变更申请。"
]
# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(questions)
def get_answer(user_question):
user_vector = vectorizer.transform([user_question])
cosine_similarities = tfidf_matrix.dot(user_vector.T).toarray().flatten()
best_match_index = cosine_similarities.argmax()
return answers[best_match_index]
print(get_answer("如何申请营业执照?")) # 输出: 请访问我们的官方网站并填写相关表格。
]]>