University of Washington
머신 러닝: 회귀 모델
University of Washington

머신 러닝: 회귀 모델

Carlos Guestrin

Instructor: Carlos Guestrin

Sponsored by PKO BP

Gain insight into a topic and learn the fundamentals.
22 hours to complete
3 weeks at 7 hours a week
Flexible schedule
Learn at your own pace
Gain insight into a topic and learn the fundamentals.
22 hours to complete
3 weeks at 7 hours a week
Flexible schedule
Learn at your own pace

Details to know

Shareable certificate

Add to your LinkedIn profile

Assessments

15 assignments

Taught in Korean

See how employees at top companies are mastering in-demand skills

Placeholder
Placeholder

Earn a career certificate

Add this credential to your LinkedIn profile, resume, or CV

Share it on social media and in your performance review

Placeholder

There are 8 modules in this course

회귀는 가장 중요하고 널리 사용되는 머신 러닝 및 통계 도구 중 하나입니다. 데이터의 특성과 관측된 연속 값 응답 간의 관계를 학습하여 여러분의 데이터에서 예측할 수 있습니다. 회귀는 주가 예측에서 유전자 조절 네트워크 이해에 이르기까지 방대한 응용이 가능합니다. 본 강의에 대한 소개에서는 앞으로 다룰 주제와 여러분이 이미 알고 있다고 가정하는 배경지식 및 리소스에 대한 개요를 제공합니다.

What's included

5 videos3 readings

본 강의는 가장 기본적인 회귀 모델인 데이터에 선을 피팅하는 것에서부터 시작합니다. 데이터의 단일 일변량 특성의 예측을 형성하기 위한 이 단순 모델을 ‘단순 선형 회귀’라고 부릅니다. 본 모듈에서는 높은 수준의 회귀 작업을 설명한 다음 이와 같은 개념을 단순 선형 회귀 사례를 통하여 전문화합니다. 폐쇄형 해와 경사 하강이라는 반복적인 최적화 알고리즘을 모두 사용하여 단순 회귀 모델을 형식화하고 모델을 데이터에 피팅하는 방법을 배웁니다. 이 적합 함수를 기반으로 예상된 모델 매개변수 및 형태 예측을 해석합니다. 또한 외부 관측치에 대한 적합의 민감도를 분석합니다. 면적을 통해 주택 가격을 예측하는 사례 연구의 맥락에서 이 모든 개념을 검토합니다.

What's included

25 videos5 readings2 assignments

단순 선형 회귀를 넘어서는 다음 단계는 데이터의 다중 특성이 예측을 형성할 때 사용되는 ‘다중 회귀’를 고려하는 것입니다. 보다 구체적으로 본 모듈에서는 단일 변수(예: '면적')와 관측된 응답(예: '주택 매매가') 사이 보다 복잡한 관계의 모델을 구축하는 방법을 배웁니다. 이때 데이터에 다항을 피팅하거나 응답 값의 계절적 변화를 포착하는 등의 작업이 포함됩니다. 또한 여러 입력 변수(예: '면적', '방 개수', '화장실 개수')를 통합하는 방법도 배웁니다. 그다음 이와 같은 모든 모델이 선형 회귀 프레임워크 내에서 여전히 다중 ‘특성’을 사용하여 변환하는 방법을 설명할 수 있습니다. 이 다중 회귀 프레임워크 내에서 데이터에 모델을 피팅하고, 예상된 계수를 해석하며, 예측을 형성할 수 있습니다. 또한 다중 회귀 모델을 피팅하기 위한 경사 하강 알고리즘도 구현합니다.

What's included

19 videos5 readings3 assignments

이와 같은 모델의 매개변수 추정을 위한 선형 회귀 모델과 알고리즘에 대해 배웠으니 이제 새 데이터 예측에 여기서 고려한 방법을 얼마나 잘 수행하고 있는지 평가할 수 있습니다. 또한 가능한 모델 중 가장 성능이 좋은 모델을 선택할 수 있습니다. 본 모듈은 모델 선택 및 평가의 중요한 주제를 다루고 있습니다. 이와 같은 분석의 이론적 측면과 실제적 측면을 모두 검토합니다. 먼저 예측의 ‘손실’을 측정하는 개념을 살펴보고 이를 통해 학습, 검정 및 일반화 오차를 정의합니다. 이와 같은 오차 측정의 경우 모델 복잡도에 따라 오차가 어떻게 달라지고 예측 성능에 대한 유효성 평가를 구성할 때 오차가 어떻게 사용되는지 분석합니다. 이는 머신 러닝의 기본인 편향-분산 트레이드오프에 대한 중요한 논의로 이어집니다. 마지막으로 먼저 모델 중에서 선택한 다음 선택한 모델의 성능을 평가하는 방법을 고안합니다. 본 모듈에 설명된 개념은 이번 강의에서 다루는 회귀 설정을 훨씬 뛰어넘는 모든 머신 러닝 문제의 핵심입니다.

What's included

14 videos2 readings2 assignments

모델 복잡도가 증가함에 따라 모델의 성능이 어떻게 변화하는지 살펴보았으며, 복잡한 모델이 훈련 데이터에 대해 과적합해지는 잠재적 문제를 설명할 수 있습니다. 이 모듈에서는 이 문제를 자동으로 처리하기 위한 매우 간단하지만 아주 효과적인 기술을 살펴보겠습니다. 이 방법을 ‘릿지 회귀’라고 합니다. 복잡한 모델에서 시작하지만 훈련 데이터에 대한 적합도 측정은 물론 과적합 함수로부터 해의 편향을 크게 하는 항까지 통합하는 방식으로 모델을 피팅합니다. 이를 위해 과적합 함수의 증상을 살펴보고 이를 사용하여 수정된 최적화 목적 함수에 쓸 정량적 측정값을 정의합니다. 릿지 회귀 목적 함수에 피팅하기 위해 폐쇄형 및 경사 하강 알고리즘을 모두 도출합니다. 이와 같은 형태는 다중 회귀를 위해 도출한 기존 알고리즘에서 약간 수정된 형태입니다. 과적합을 방지하는 편향의 강도를 선택하기 위해 ‘교차 검증’이라는 일반적인 방법을 살펴봅니다. 교차 검증 및 경사 하강을 모두 구현하여 릿지 회귀를 피팅하고 정규화 상수를 선택합니다.

What's included

16 videos5 readings3 assignments

기본적인 머신 러닝 작업은 모델에 포함할 특성의 집합을 선택하는 것입니다. 본 모듈에서는 다중 회귀의 맥락에서 이 개념을 살펴보고 특성을 이처럼 선택하는 것이 예측을 형성하는 데 있어 해석 가능성과 효율성에 어떤 중요성을 갖는지 살펴볼 수 있습니다. 시작하기 전 여러 특성의 부분 집합을 포함하여 열거한 모델을 탐색하는 방법을 알아봅니다. 완전 탐색과 탐욕 알고리즘을 모두 분석합니다. 그리고 명시적 열거 대신 릿지 회귀와 유사하게 암시적으로 특성 선택을 수행하는 라소 회귀로 전환합니다. 복잡한 모델은 훈련 데이터에 대한 적합도 측정값 및 릿지에 사용된 것과 다른 과적합 측정값을 기반으로 피팅합니다. 이 라쏘 방법은 수많은 영역에서 그 영향력을 발휘했으며 이 방법의 근간이 되는 개념은 머신 러닝과 통계를 근본적으로 변화시킨 바 있습니다. 또한 라쏘 모델을 피팅하기 위한 좌표 하강 알고리즘을 구현합니다. 좌표 하강은 또 다른 일반적인 최적화 기술로 머신 러닝의 여러 영역에서 유용하게 사용됩니다.

What's included

22 videos4 readings3 assignments

지금까지는 다항 및 초평면과 같은 매개변수 함수를 전체 데이터 세트에 피팅하는 방법에 초점을 맞추었습니다. 본 모듈에서는 그 대신 ‘비모수’ 방법의 클래스에 주목합니다. 이와 같은 방법을 사용하면 더 많은 데이터가 관측됨에 따라 모델의 복잡도가 증가하고, 로컬에서 관측치를 수락하는 적합이 생성됩니다. 비모수 방법의 간단하고 직관적인 예시인 최근접 이웃 회귀부터 살펴봅니다. 쿼리 지점에 대한 예측은 학습 세트에서 가장 관련성이 높은 관측치를 기반으로 합니다. 이 접근 방법은 매우 간단하지만 특히 대규모 데이터 세트에서 우수한 예측을 제공할 수 있습니다. 알고리즘을 배포하여 최근접 이웃을 검색하고 검색된 이웃을 기반으로 예측을 형성합니다. 이 개념을 기반으로 커널 회귀를 살펴봅니다. 최근접 관측치의 작은 집합을 기반으로 예측을 형성하는 대신, 커널 회귀는 데이터 세트의 모든 관측치를 사용하나 이와 같은 관측치가 예측값에 미치는 영향은 쿼리 지점과의 유사성에 의해 그 가중치가 달라집니다. 무한한 훈련 데이터라는 한계를 두고 이와 같은 방법의 이론적 성능을 분석하며, 이러한 방법이 잘 작동할 때와 그렇지 않을 때를 시나리오로 비교해 봅니다. 또한 이와 같은 기술을 구현하고 실제 행동을 관측합니다.

What's included

13 videos2 readings2 assignments

본 과정을 마치며 지금까지 다룬 내용을 정리합니다. 이는 회귀에 특화된 기술은 물론 전문 과정 전반에 걸쳐 나타날 기본적인 머신 러닝 개념을 모두 아우릅니다. 또한 본 강의에서 다루지 않은 몇 가지 중요한 회귀 기술에 대해 간략히 논의합니다. 마지막으로 나머지 전문 과정에서 여러분이 살펴볼 수 있는 사항에 대한 개요를 설명합니다.

What's included

5 videos1 reading

Instructor

Carlos Guestrin
University of Washington
8 Courses482,812 learners

Offered by

Why people choose Coursera for their career

Felipe M.
Learner since 2018
"To be able to take courses at my own pace and rhythm has been an amazing experience. I can learn whenever it fits my schedule and mood."
Jennifer J.
Learner since 2020
"I directly applied the concepts and skills I learned from my courses to an exciting new project at work."
Larry W.
Learner since 2021
"When I need courses on topics that my university doesn't offer, Coursera is one of the best places to go."
Chaitanya A.
"Learning isn't just about being better at your job: it's so much more than that. Coursera allows me to learn without limits."

Recommended if you're interested in Data Science

Placeholder

Open new doors with Coursera Plus

Unlimited access to 10,000+ world-class courses, hands-on projects, and job-ready certificate programs - all included in your subscription

Advance your career with an online degree

Earn a degree from world-class universities - 100% online

Join over 3,400 global companies that choose Coursera for Business

Upskill your employees to excel in the digital economy