LocalAI

mirror of https://github.com/mudler/LocalAI.git synced 2026-05-14 14:49:06 -05:00

Author	SHA1	Message	Date
Gregory Mariani	745c31e013	feat(inpainting): add inpainting endpoint, wire ImageGenerationFunc and return generated image URL (#7328 ) feat(inpainting): add inpainting endpoint with automatic model selection Signed-off-by: Greg <marianigregory@pm.me>	2025-11-24 21:13:54 +01:00
Ettore Di Giacinto	d7f9f3ac93	feat: add support to logitbias and logprobs (#7283 ) * feat: add support to logprobs in results Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * feat: add support to logitbias Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-16 13:27:36 +01:00
Ettore Di Giacinto	735ca757fa	feat(ui): allow to cancel ops (#7264 ) * feat(ui): allow to cancel ops Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Improve progress text Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Cancel queued ops, don't show up message cancellation always Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix: fixup displaying of total progress over multiple files Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-13 18:41:47 +01:00
Ettore Di Giacinto	02cc8cbcaa	feat(llama.cpp): consolidate options and respect tokenizer template when enabled (#7120 ) * feat(llama.cpp): expose env vars as options for consistency This allows to configure everything in the YAML file of the model rather than have global configurations Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * feat(llama.cpp): respect usetokenizertemplate and use llama.cpp templating system to process messages Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Detect template exists if use tokenizer template is enabled Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Better recognization of chat Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixes to support tool calls while using templates from tokenizer Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Drop template guessing, fix passing tools to tokenizer Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Extract grammar and other options from chat template, add schema struct Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Automatically set use_jinja Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Cleanups, identify by default gguf models for chat Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Update docs Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-07 21:23:50 +01:00
Ettore Di Giacinto	cd1e1124ea	fix(llama.cpp): correctly set grammar triggers (#6432 ) * fix(llama.cpp): correctly set grammar triggers Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Do not enable lazy by default Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-10-10 19:50:17 +02:00
Ettore Di Giacinto	60b6472fa0	feat: Add Agentic MCP support with a new chat/completion endpoint (#6381 ) * WIP - add endpoint Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Rename Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Wire the Completion API Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Try to make it functional Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Almost functional Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Bump golang versions used in tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add description of the tool Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Make it working Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Small optimizations Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Cleanup/refactor Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Update docs Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-10-05 17:51:41 +02:00
Richard Palethorpe	37f5e4f5c1	feat(whisper): Add diarization (tinydiarize) (#6184 ) Signed-off-by: Richard Palethorpe <io@richiejp.com>	2025-09-10 19:09:28 +02:00
Ettore Di Giacinto	739573e41b	feat(flash_attention): set auto for flash_attention in llama.cpp (#6168 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-31 17:59:09 +02:00
Ettore Di Giacinto	79a41a5e07	fix: register backends to model-loader during installation (#6159 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-28 19:11:02 +02:00
Ettore Di Giacinto	9621edb4c5	feat(diffusers): add support for wan2.2 (#6153 ) * feat(diffusers): add support for wan2.2 Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(ci): use ttl.sh for PRs Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add ftfy deps Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Revert "chore(ci): use ttl.sh for PRs" This reverts commit `c9fc3ecf28`. * Simplify Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore: do not pin torch/torchvision on cuda12 Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-28 10:26:42 +02:00
Ettore Di Giacinto	089efe05fd	feat(backends): add system backend, refactor (#6059 ) - Add a system backend path - Refactor and consolidate system information in system state - Use system state in all the components to figure out the system paths to used whenever needed - Refactor BackendConfig -> ModelConfig. This was otherway misleading as now we do have a backend configuration which is not the model config. Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-14 19:38:26 +02:00
Ettore Di Giacinto	3d22bfc27c	feat(stablediffusion-ggml): add support to ref images (flux Kontext) (#5935 ) * feat(stablediffusion-ggml): add support to ref images Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add it to the model gallery Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-07-30 22:42:34 +02:00
Ettore Di Giacinto	949e5b9be8	feat(rfdetr): add object detection API (#5923 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-07-27 22:02:51 +02:00
Ettore Di Giacinto	98e5291afc	feat: refactor build process, drop embedded backends (#5875 ) * feat: split remaining backends and drop embedded backends - Drop silero-vad, huggingface, and stores backend from embedded binaries - Refactor Makefile and Dockerfile to avoid building grpc backends - Drop golang code that was used to embed backends - Simplify building by using goreleaser Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(gallery): be specific with llama-cpp backend templates Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(docs): update Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(ci): minor fixes Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore: drop all ffmpeg references Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix: run protogen-go Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Always enable p2p mode Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Update gorelease file Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix(stores): do not always load Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fix linting issues Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Simplify Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Mac OS fixup Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-07-22 16:31:04 +02:00
Ettore Di Giacinto	b29544d747	feat: split piper from main binary (#5858 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-07-19 08:31:33 +02:00
Ettore Di Giacinto	33f9ee06c9	fix(gallery): automatically install model from name (#5757 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-06-29 17:42:58 +02:00
Ettore Di Giacinto	dfadc3696e	feat(llama.cpp): allow to set kv-overrides (#5745 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-06-28 21:26:07 +02:00
Ettore Di Giacinto	bb54f2da2b	feat(gallery): automatically install missing backends along models (#5736 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-06-27 18:25:44 +02:00
Ettore Di Giacinto	3bac4724ac	fix(streaming): stream complete runes (#5539 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-05-31 08:48:05 +02:00
Richard Palethorpe	bf6426aef2	feat: Realtime API support reboot (#5392 ) * feat(realtime): Initial Realtime API implementation Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore: go mod tidy Signed-off-by: Richard Palethorpe <io@richiejp.com> * feat: Implement transcription only mode for realtime API Reduce the scope of the real time API for the initial realease and make transcription only mode functional. Signed-off-by: Richard Palethorpe <io@richiejp.com> * chore(build): Build backends on a separate layer to speed up core only changes Signed-off-by: Richard Palethorpe <io@richiejp.com> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io> Signed-off-by: Richard Palethorpe <io@richiejp.com> Co-authored-by: Ettore Di Giacinto <mudler@localai.io>	2025-05-25 22:25:05 +02:00
Ettore Di Giacinto	3b0cf52f6a	feat(llama.cpp): add reranking (#5396 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-05-22 21:49:30 +02:00
Ettore Di Giacinto	b2f9fc870b	chore(defaults): enlarge defaults, drop gpu layers which is infered (#5308 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-05-03 18:44:51 +02:00
Ettore Di Giacinto	2c9279a542	feat(video-gen): add endpoint for video generation (#5247 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-04-26 18:05:01 +02:00
Ettore Di Giacinto	61cc76c455	chore(autogptq): drop archived backend (#5214 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-04-19 15:52:29 +02:00
Ettore Di Giacinto	2c425e9c69	feat(loader): enhance single active backend by treating as singleton (#5107 ) feat(loader): enhance single active backend by treating at singleton Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-04-01 20:58:11 +02:00
Ettore Di Giacinto	67f7bffd18	chore(deps): update llama.cpp and sync with upstream changes (#4950 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-03-06 00:40:58 +01:00
Ettore Di Giacinto	a7b4001b75	feat: allow to specify a reply prefix (#4931 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-03-02 16:07:32 +01:00
Brandon Beiler	6a6e1a0ea9	feat(vllm): Additional vLLM config options (Disable logging, dtype, and Per-Prompt media limits) (#4855 ) * Adding the following vLLM config options: disable_log_status, dtype, limit_mm_per_prompt Signed-off-by: TheDropZone <brandonbeiler@gmail.com> * using " marks in the config.yaml file Signed-off-by: TheDropZone <brandonbeiler@gmail.com> * adding in missing colon Signed-off-by: TheDropZone <brandonbeiler@gmail.com> --------- Signed-off-by: TheDropZone <brandonbeiler@gmail.com>	2025-02-18 19:27:58 +01:00
Dave	3cddf24747	feat: Centralized Request Processing middleware (#3847 ) * squash past, centralize request middleware PR Signed-off-by: Dave Lee <dave@gray101.com> * migrate bruno request files to examples repo Signed-off-by: Dave Lee <dave@gray101.com> * fix Signed-off-by: Dave Lee <dave@gray101.com> * Update tests/e2e-aio/e2e_test.go Signed-off-by: Ettore Di Giacinto <mudler@users.noreply.github.com> --------- Signed-off-by: Dave Lee <dave@gray101.com> Signed-off-by: Ettore Di Giacinto <mudler@users.noreply.github.com> Co-authored-by: Ettore Di Giacinto <mudler@users.noreply.github.com>	2025-02-10 12:06:16 +01:00
Shraddha	03974a4dd4	feat: tokenization with llama.cpp (#4724 ) feat: tokenization Signed-off-by: shraddhazpy <shraddha@shraddhafive.in>	2025-02-02 17:39:43 +00:00
Ettore Di Giacinto	1d6afbd65d	feat(llama.cpp): Add support to grammar triggers (#4733 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-02-02 13:25:03 +01:00
mintyleaf	96f8ec0402	feat: add machine tag and inference timings (#4577 ) * Add machine tag option, add extraUsage option, grpc-server -> proto -> endpoint extraUsage data is broken for now Signed-off-by: mintyleaf <mintyleafdev@gmail.com> * remove redurant timing fields, fix not working timings output Signed-off-by: mintyleaf <mintyleafdev@gmail.com> * use middleware for Machine-Tag only if tag is specified Signed-off-by: mintyleaf <mintyleafdev@gmail.com> --------- Signed-off-by: mintyleaf <mintyleafdev@gmail.com>	2025-01-17 17:05:58 +01:00
Ettore Di Giacinto	7d0ac1ea3f	chore(vall-e-x): Drop backend (#4619 ) There are many new architectures that are SOTA and replaces vall-e-x nowadays. Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-01-17 09:35:10 +01:00
mintyleaf	2bc4b56a79	feat: stream tokens usage (#4415 ) * Use pb.Reply instead of []byte with Reply.GetMessage() in llama grpc to get the proper usage data in reply streaming mode at the last [DONE] frame * Fix 'hang' on empty message from the start Seems like that empty message marker trick was unnecessary --------- Co-authored-by: Ettore Di Giacinto <mudler@users.noreply.github.com>	2024-12-18 09:48:50 +01:00
Ettore Di Giacinto	f943c4b803	Revert "feat: include tokens usage for streamed output" (#4336 ) Revert "feat: include tokens usage for streamed output (#4282)" This reverts commit `0d6c3a7d57`.	2024-12-08 17:53:36 +01:00
Ettore Di Giacinto	d4c1746c7d	feat(llama.cpp): expose cache_type_k and cache_type_v for quant of kv cache (#4329 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-12-06 10:23:59 +01:00
Ettore Di Giacinto	44a5dac312	feat(backend): add stablediffusion-ggml (#4289 ) * feat(backend): add stablediffusion-ggml Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(ci): track stablediffusion-ggml Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Use default scheduler and sampler if not specified Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Move cfg scale out of diffusers block Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Make it working Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix: set free_params_immediately to false to call the model in sequence https://github.com/leejet/stable-diffusion.cpp/issues/366 Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-12-03 22:41:22 +01:00
mintyleaf	0d6c3a7d57	feat: include tokens usage for streamed output (#4282 ) Use pb.Reply instead of []byte with Reply.GetMessage() in llama grpc to get the proper usage data in reply streaming mode at the last [DONE] frame Co-authored-by: Ettore Di Giacinto <mudler@users.noreply.github.com>	2024-11-28 14:47:56 +01:00
Ettore Di Giacinto	6daef00d30	chore(refactor): drop unnecessary code in loader (#4096 ) * chore: simplify passing options to ModelOptions Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(refactor): do not expose internal backend Loader Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-11-08 21:54:25 +01:00
Ettore Di Giacinto	e2a8dd64db	fix(tts): correctly pass backend config when generating model options (#4091 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-11-07 18:30:22 +01:00
Ettore Di Giacinto	947224b952	feat(diffusers): allow multiple lora adapters (#4081 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-11-05 15:14:33 +01:00
Ettore Di Giacinto	ae1ec4e096	feat(vllm): expose 'load_format' (#3943 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-10-23 15:34:57 +02:00
Ettore Di Giacinto	d5da8c3509	feat(templates): extract text from multimodal requests (#3866 ) When offloading template construction to the backend, we want to keep text around in case of multimodal requests. Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-10-17 17:33:50 +02:00
Ettore Di Giacinto	3acd767ac4	chore: simplify model loading (#3715 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-10-02 08:59:06 +02:00
Shraddha	5488fc3bc1	feat: tokenization endpoint (#3710 ) endpoint to access the tokenizer Signed-off-by: shraddhazpy <shraddha@shraddhafive.in> Co-authored-by: Ettore Di Giacinto <mudler@users.noreply.github.com> Co-authored-by: Dave <dave@gray101.com>	2024-10-02 08:56:18 +02:00
Ettore Di Giacinto	0965c6cd68	feat: track internally started models by ID (#3693 ) * chore(refactor): track internally started models by ID Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Just extend options, no need to copy Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Improve debugging for rerankers failures Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Simplify model loading with rerankers Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Be more consistent when generating model options Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Uncommitted code Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Make deleteProcess more idiomatic Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Adapt CLI for sound generation Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixup threads definition Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Handle corner case where c.Seed is nil Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Consistently use ModelOptions Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Adapt new code to refactoring Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io> Co-authored-by: Dave <dave@gray101.com>	2024-10-02 08:55:58 +02:00
siddimore	f84b55d1ef	feat: Add Get Token Metrics to GRPC server (#3687 ) * Add Get Token Metrics to GRPC server Signed-off-by: Siddharth More <siddimore@gmail.com> * Expose LocalAI endpoint Signed-off-by: Siddharth More <siddimore@gmail.com> --------- Signed-off-by: Siddharth More <siddimore@gmail.com>	2024-10-01 14:41:20 +02:00
Sertaç Özercan	ee21b00a8d	feat: auto load into memory on startup (#3627 ) Signed-off-by: Sertac Ozercan <sozercan@gmail.com>	2024-09-22 10:03:30 +02:00
Ettore Di Giacinto	191bc2e50a	feat(api): allow to pass audios to backends (#3603 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-09-19 12:26:53 +02:00
Ettore Di Giacinto	fbb9facda4	feat(api): allow to pass videos to backends (#3601 ) This prepares the API to receive videos as well for video understanding. It works similarly to images, where the request should be in the form: { "type": "video_url", "video_url": { "url": "url or base64 data" } } Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2024-09-19 11:21:59 +02:00

1 2

85 Commits