LangChain 文档学习 No.4 - 输出解析器

发表于 2023-12-02 分类于开发 > 开源学习 > LangChain

列表解析器

返回逗号分隔的项目列表时，可以使用此输出解析器

解析器和 prompt

PYTHON

# 列表解析器
output_parser = CommaSeparatedListOutputParser()

# 列表解析器自带格式说明
format_instructions = output_parser.get_format_instructions()
# prompt template
prompt_template = PromptTemplate(
    template="列举出五个{subject}.\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions}
)

使用

PYTHON

# AI 模型
model = Azure.chat_model
output = model.predict(prompt_template.format(subject="棒棒糖口味"))
# 解析
print(output_parser.parse(output))

# >> ['草莓味', '葡萄味', '橙子味', '苹果味', '蓝莓味']

日期解析器

输出解析为日期时间格式

PYTHON

# 日期解析器
output_parser = DatetimeOutputParser()
template = """Answer the users question:

{question}

{format_instructions}"""

# prompt template
prompt_template = PromptTemplate.from_template(
    template,
    partial_variables={"format_instructions": output_parser.get_format_instructions()},
)

使用

PYTHON

# AI 模型
model = Azure.chat_model
chain = LLMChain(prompt=prompt, llm=model)
output = chain.run("around when was bitcoin founded?")
# 解析
print(output_parser.parse(output))

这里可能是因为使用了 AzureOpenAI，没法按照限制的格式输出，不太稳定

BASH

1	ValueError: time data 'Bitcoin was founded on January 3, 2009. The corresponding datetime string would be "2009-01-03T00:00:00.000000Z".' does not match format '%Y-%m-%dT%H:%M:%S.%fZ'

枚举解析器

枚举解析器用来解析枚举

定义枚举

PYTHON

class Colors(Enum):
    WHITE = "白色"
    RED = "红色"
    GREEN = "绿色"
    BLUE = "蓝色"
    YELLOW = "黄色"

解析器和 prompt

PYTHON

parser = EnumOutputParser(enum=Colors)
prompt_template = PromptTemplate.from_template("选择一个你最喜欢的颜色\n{format_instructions}")
prompt = prompt_template.format(format_instructions=parser.get_format_instructions())
print(prompt)

# >> 选择一个你最喜欢的颜色\nSelect one of the following options: 白色, 红色, 绿色, 蓝色, 黄色

使用

PYTHON

model = Azure.chat_model
result = model.predict(prompt)
print(parser.parse(result))

# >> Colors.BLUE

结构化解析器

当需要返回多个字段时，可以使用这种输出解析器，Pydantic JSON 解析器相比之下更强大

定义我们想要接收的响应结构

PYTHON

# 结构定义
response_schemas = [
    ResponseSchema(name="answer", description="回答用户的问题"),
    ResponseSchema(name="source", description="用于回答用户问题的来源，应该是一个网站"),
    ResponseSchema(name="score", description="给自己的回答打分，满分 100", type="num")
]

# 创建解析器
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)

提示模板

PYTHON

# 生成的格式说明
format_instructions = output_parser.get_format_instructions()

# 提示模板
prompt_template = PromptTemplate(
    template="尽可能回答用户的问题.\n{format_instructions}\n{question}",
    input_variables=["question"],
    partial_variables={"format_instructions": format_instructions}
)

使用

PYTHON

model = Azure.chat_model
prompt = prompt.format(question="中国的首都是哪个城市？")
output = model.predict(prompt)
result = output_parser.parse(output)

# 类型
print(type(result))
print(type(result["answer"]))
print(type(result["source"]))
print(type(result["score"]))
# >> <class 'dict'>
# >> <class 'str'>
# >> <class 'str'>
# >> <class 'int'>

# 答案
print(result)
# >> {'answer': '中国的首都是北京。', 'source': 'https://zh.wikipedia.org/wiki/%E5%8C%97%E4%BA%AC', 'score': 100}

Pydantic JSON 解析器

该输出解析器允许用户指定任意的 JSON 模式，并查询符合该模式的 JSON 输出

需要注意

大型语言模型是有漏洞的，必须使用具有足够容量的 LLM 来生成格式正确的 JSON 在 OpenAI 家族中，DaVinci 的能力可靠，但 Curie 的能力不足

使用 Pydantic 来声明数据模型；Pydantic 的。BaseModel 类似于 Python 的数据类，但具有真正的类型检查和强制转换功能

定义结构

PYTHON

# Define your desired data structure.
class Joke(BaseModel):
    setup: str = Field(description="question to set up a joke")
    punchline: str = Field(description="answer to resolve the joke")

    # 您可以使用 Pydantic 轻松添加自定义验证逻辑
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("Badly formed question!")
        return field
      
# PydanticOutputParser 解析器
parser = PydanticOutputParser(pydantic_object=Joke)

定义模板

PYTHON

# And a query intented to prompt a language model to populate the data structure.
joke_query = "Tell me a joke."

# prompt template
prompt_template = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

使用

PYTHON

prompt = prompt_template.format_prompt(query=joke_query)
output = model(_input.to_string())
print(parser.parse(prompt))

# >> Joke(setup='Why did the chicken cross the road?', punchline='To get to the other side!')

复合类型字段的示例

PYTHON

# Here's another example, but with a compound typed field.
class Actor(BaseModel):
    name: str = Field(description="name of an actor")
    film_names: List[str] = Field(description="list of names of films they starred in")

自动修复解析器

自动修复解析器包装另一个输出解析器，如果第一个解析器失败，它会调用另一个 LLM 来修复错误

但除了抛出错误，我们还可以做其他事情，例如我们可以将格式错误的输出和格式化的指令一起传递给模型，并要求它进行修复

定义结构

PYTHON

class Actor(BaseModel):
    name: str = Field(description="name of an actor")
    film_names: List[str] = Field(description="list of names of films they starred in")
    
# Pydantic 解析器
parser = PydanticOutputParser(pydantic_object=Actor)

错误语句解析

PYTHON

1 2	mis_formatted = "{'name': '汤姆汉克斯', 'film_names': ['阿甘正传']}" parser.parse(mis_formatted)

上面的 JSON 格式是错误的（单引号），所以抛出异常

BASH

langchain.schema.output_parser.OutputParserException: Failed to parse Actor from completion {'name': '汤姆汉克斯', 'film_names': ['阿甘正传']}. Got: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

使用自动修复解析器包装解析器和 LLM

PYTHON

new_parser = OutputFixingParser.from_llm(parser=parser, llm=Azure.chat_model, max_retries=2)
result = new_parser.parse(mis_formatted)
print(result)

# >> name='Tom Hanks' film_names=['Forrest Gump']
# 呃，这里被 AI 修复成了英文

实现原理就是进行重试，将解析器的格式说明和错误内容交给 AI 重新进行处理

重试解析器

某些情况下查看输出就可以修复解析错误

但是例如输出不仅格式不正确，而且不完整则完全无法解析

假设定义结构和错误返回

PYTHON

class Action(BaseModel):
    action: str = Field(description="action to take")
    action_input: str = Field(description="input to the action")
    
# 错误返回并没有 action_input 的信息
bad_response = '{"action": "search"}'

如果我们使用 OutputFixingParser 也无法完整修复，因为 AI 并不清楚数据是什么（感觉可以理解为修复的更多是格式错误，无法修复内容的不完整）

PYTHON

fix_parser = OutputFixingParser.from_llm(parser=parser, llm=Azure.chat_model)
print(fix_parser.parse(bad_response))

# 修复结果依然是不完整的
# >> Action(action='search', action_input='')

此时就需要重试进行解决

使用 RetryOutputParser

PYTHON

# 创建 RetryWithErrorOutputParser
retry_parser = RetryWithErrorOutputParser.from_llm(
    parser=parser, llm=Azure.chat_model
)
retry_parser.parse_with_prompt(bad_response, prompt_value)

# >> Action(action='search', action_input='who is leo di caprios gf?')

参考

输出解析器 (Output Parsers) | 🦜️🔗 Langchain