无结构
本示例介绍如何使用无结构读取多种类型的文件。无结构目前支持加载文本文件、PPT、HTML、PDF、图片等。
设置
您可以在计算机上使用Docker运行无结构。要这样做,您需要安装Docker。您可以在此处找到安装Docker的说明 here。
docker run -p 8000:8000 -d --rm --name unstructured-api quay.io/unstructured-io/unstructured-api:latest --port 8000 --host 0.0.0.0
用法
运行无结构后,您可以使用它从计算机中加载文件。您可以使用以下代码从计算机中加载文件。
import { UnstructuredLoader } from "langchain/document_loaders/fs/unstructured";
const options = {
apiKey: "MY_API_KEY",
};
const loader = new UnstructuredLoader(
"src/document_loaders/example_data/notion.md",
options
);
const docs = await loader.load();
目录
您还可以使用 'UnstructuredDirectoryLoader' 从目录中加载所有文件,其继承自 'DirectoryLoader'
import { UnstructuredDirectoryLoader } from "langchain/document_loaders/fs/unstructured";
const options = {
apiKey: "MY_API_KEY",
};
const loader = new UnstructuredDirectoryLoader(
"langchain/src/document_loaders/tests/example_data",
options
);
const docs = await loader.load();